企业部署 AI 不再是试验项目,而是战略行动。预算已经常态化、模型选择多元化、采购流程标准化、AI 应用开始系统落地。尽管产业需求和企业需求碎片化,但这正是企业拥抱的方向。一些关键厂商正在脱颖而出,企业也越来越多选择成品应用以加速落地。
市场形态愈加接近传统软件,但变化节奏与复杂性却完全不同——这是 AI 的特有节奏。
2025年,AI大模型在企业场景的落地走到哪了?
过去一年,AI在企业中的地位发生了根本性转变。它不再是创新实验室里一场场孤立的试验,也不仅是技术部门热衷的“新玩具”,而是真正走入了核心业务系统,成为IT和经营预算中不可或缺的一部分。
这是一场静悄悄却迅猛的演进:AI模型变得更多样,采购流程愈发严谨,企业不再“自己造轮子”,而是开始像采购传统软件那样,有条不紊地选择、部署、评估人工智能服务。技术领导者们正变得越来越成熟——他们明白,不同模型适配不同任务,用例碎片化是常态,而高质量的AI原生应用,正在快速超越传统软件厂商。
近日,A16z发布了一份主题为《AI技术在企业场景落地》的调研报告,报告基于与20多位企业买家的深度访谈和100位CIO的调研,全面回顾了企业在2025年如何部署、采购、集成和规划AI。
这份报告背后对应的是一个新的观点,即:AI不再是“是否值得尝试”的问题,而是“如何规模化落地”的现实挑战。
AI落地到底如何?又或者说,AI在企业场景中到底该如何落地?怎样更好的落地?可以说,它是一份调查,也更是一面全球企业落地AI的镜子。
让我们一起来走进这份报告。
以下为报告原文(部分语句做可读性调整):
一年前,我们总结了企业在构建与采购生成式 AI(Gen AI)方面面临的 16 项变革。时至今日,形势已然大变。为此,我们重访了 20 多位企业买家,并调研了横跨 15 个行业的 100 位 CIO,试图帮助创业者了解企业客户在 2025 年及未来如何使用、采购与规划 AI。
尽管 AI 世界瞬息万变,过去一年市场格局的演进仍然超出了我们的预期:
1、企业 AI 预算持续超标增长,从试点项目跃升为 IT 和业务核心预算的一部分。
2、企业在“多模型组合”上的运用日益成熟,开始注重性能与成本的平衡。OpenAI、谷歌和 Anthropic 是闭源市场的主力,而 Meta 与 Mistral 成为开源阵营的热门选择。
3、AI 模型采购流程日趋接近传统软件采购:评估更严、托管更讲究、标准化测试更受重视。与此同时,更复杂的 AI 工作流也在推高模型替换成本。
4、AI 应用生态逐渐成型:标准化应用开始取代定制开发,AI 原生的第三方应用迎来爆发增长。
本报告将围绕企业在预算分配、模型选择、采购流程与应用使用四大维度的最新趋势,帮助创业者更细致地理解企业客户真正关注的重点。
一 预算:AI 支出超出预期,并持续增长
1. AI 预算增长远超预期,且毫无放缓迹象
企业对大语言模型(LLM)的投入已大幅超出去年原本就很高的预算预期,且预计未来一年将继续增长,平均增幅约为 75%。正如一位 CIO 所说:“我 2023 年一整年的支出,现在一周就能用完。”
预算上升的原因有二:一方面,企业持续发掘更多内部用例,推动员工广泛采用;另一方面,越来越多的企业开始部署面向客户的 AI 应用,尤其是科技创新型企业,这些场景的投入呈指数级扩展。一家大型科技公司表示:“去年我们主要专注于内部效率提升,今年的重点将转向面向客户的 Gen AI,投入会大大增加。”
2. AI 正式纳入核心预算,结束“试验期”
一年前,企业在 LLM 上的支出中仍有约 25% 来自创新专项预算;如今,这一比例降至 7%。企业普遍将 AI 模型和应用的费用纳入常规 IT 与业务部门预算,体现出 AI 不再是探索性项目,而是业务运转的“基础设施”。
一位 CTO 指出:“我们的产品正在陆续集成 AI 功能,相关支出也自然水涨船高。”这意味着,AI 融入主流预算的趋势还将进一步加速。
二 模型:多模型策略成为主流,三大厂商初步确立领先地位
3. 多模型时代已成常态,“差异化”而非“同质化”成驱动力
当前市面上已存在多个性能出色的 LLM,企业开始在实际生产中部署多种模型。虽然避免供应商绑定是一个重要原因,但更根本的动因是:不同模型在不同用例中的表现差异越来越显著。
本年度调查中,37% 的企业正在使用五种及以上的模型,较去年的 29% 明显增长。
虽然模型在某些通用评估中得分相近,但企业用户发现,其实际效果差异不容忽视。例如,Anthropic 的 Claude 更擅长细粒度代码补全,而 Gemini 更适用于系统设计和架构。在基于文本的任务中,用户反馈 Anthropic的语言流畅性和内容生成更强,而 OpenAI 的模型更适合复杂问答任务。
这种差异促使企业采用“多模型最佳实践”,既保障性能优化,又降低对单一厂商的依赖。我们预判这种策略将在未来继续主导企业的模型部署路径。
4. 模型格局仍激烈,但三大厂商初显优势
虽然企业在实验和生产中持续试用多个模型,但市场上已出现三个领先者:OpenAI 保持市场份额领先,谷歌和 Anthropic 则在过去一年迅速追赶。
具体来看:
(1)OpenAI:其模型组合被广泛应用,GPT-4o 是最常部署到生产环境中的模型,推理模型 o3 也引发高度关注。67% 的OpenAI 用户在生产中部署了非前沿模型,这一比例远高于谷歌(41%)和 Anthropic(27%)。
(2)谷歌:在大型企业中表现更突出,得益于 GCP 客户基础和品牌信任。Gemini 2.5 不仅具备顶级上下文窗口,在性价比上也具明显优势——Gemini 2.5 Flash 每百万 Token 成本为 0.26 美元,远低于 GPT-4.1 mini 的 0.70 美元。
(3)Anthropic:在技术前沿型企业(如软件公司与初创企业)中受到高度青睐。其在代码相关任务中的表现尤为突出,是增长最快的 AI 编码应用背后的核心引擎。
此外,开源模型如Llama 与 Mistral 更受大型企业青睐,主要出于数据安全、合规和可定制性考虑。新玩家 xAI 的 Grok 模型也开始受到广泛关注,市场仍充满变数。
5. 对于中小型模型而言,闭源模型的性价比优势愈发明显
如前所述,模型成本正以每年一个数量级的速度下降。在这一趋势下,闭源模型(尤其是中小型模型)的性能/成本比正变得越来越有吸引力。
目前在这一领域表现领先的是 xAI 的 Grok 3 mini 和谷歌的 Gemini 2.5 Flash。例如,一些客户表示,出于成本考量及生态系统集成便利,他们更倾向选择闭源模型。
正如一位客户坦言:“现在的定价已经非常诱人,而我们已经深度嵌入谷歌生态,从 G Suite 到数据库都在使用,他们的企业服务经验对我们来说很有价值。”另一位客户则更直白地总结道:“Gemini 很便宜。”
这反映出闭源模型在中低成本场景中正逐步赢得市场。
6. 随着模型能力增强,微调的重要性正在下降
随着模型智能水平和上下文窗口显著提升,企业发现,实现优异性能已不再依赖微调,而是更多依靠高效的 Prompt 工程。
某家企业观察道:“我们不再需要提取训练数据去微调模型,只要把它放进一个足够长的上下文窗口,结果几乎一样好。”
这一转变带来两个重要影响:
(1)降低使用成本:Prompt 工程成本远低于微调;
(2)降低供应商绑定风险:Prompt 可轻松迁移至其他模型,而微调后的模型往往存在迁移困难和高前期投入。
不过,在某些超特定用例中,微调仍不可或缺。比如,一家流媒体公司就针对视频搜索中的查询增强,对开源模型进行了微调,以适应领域语言。
此外,若强化微调(Reinforcement Fine-tuning)等新方法在实验室外得到广泛应用,微调在未来也可能迎来新一轮增长。
总体而言,大多数企业在常规场景中对微调的 ROI 预期已经下降,且更倾向于在成本敏感型场景中选用开源模型。
7. 企业对“推理模型”前景乐观,正积极准备规模化部署
推理模型(Reasoning Models)能够让大语言模型更准确地完成更复杂的任务,从而显著扩大 LLM 的可用场景。尽管目前多数企业仍处于测试阶段,尚未正式上线部署,但对于其潜力普遍持乐观态度。
一位高管表示:“推理模型能帮助我们解决更多新型、复杂的任务场景,我预计它的使用量很快会出现大幅增长。只是目前我们还处于早期测试阶段。”
在早期使用者中,OpenAI的推理模型表现最为突出。尽管 DeepSeek 在行业中也有不少关注,但在生产部署方面,OpenAI 的优势非常明显:本次调研显示,有 23% 的企业已在生产中使用 OpenAI 的 o3 模型,而使用DeepSeek 的仅为 3%。不过,DeepSeek 在初创企业中的采用率相对更高,企业市场渗透仍较低。
随着推理能力逐步融合进企业应用主流程,其影响力有望迅速放大。
三 采购:企业AI 采购流程趋于成熟,正全面借鉴传统软件采购机制
8. 模型采购流程日趋规范,成本敏感度提升
当前,企业在选择模型时已普遍采用系统性的评估框架。在我们访谈中,安全性和成本与准确性、可靠性一样,成为模型采购的核心考量。正如一位企业负责人所言:“现在大多数模型的基础能力都够用,价格反而成了更重要的因素。”
此外,企业在“用例-模型”匹配上也日益专业化:
(1)对于关键场景或对性能要求高的任务,企业更倾向于选择具有强品牌背书的顶级模型;
(2)对于内部或低风险任务,企业更多以“成本导向”作决策。
9. 企业对模型厂商信任度显著提升,托管策略更加多元
过去一年,企业与模型厂商之间的信任明显提升。虽然仍有一部分企业偏好通过现有云服务关系托管模型(如通过 AWS 使用 OpenAI),但越来越多的企业选择直接与模型提供方合作,或通过 Databricks 等平台托管,尤其是在模型并未由主力云厂商托管时。
正如一位受访者所说:“我们想第一时间用上最新最强的模型,预览版本也很关键。”相较去年“尽可能绕回主云厂商”的策略,这种直接托管趋势是一个显著转变。
10. 随着任务复杂性上升,模型切换成本也在快速上涨
去年,不少企业在设计AI 应用时刻意降低切换成本,希望模型“来去自如”。但随着“代理式工作流”的兴起,这一策略开始失效。
代理工作流通常涉及多步骤协作,模型之间的替换将牵一发而动全身。企业在构建提示语、设计护栏、验证质量方面投入大量资源后,更不愿意轻易更换模型。
一位 CIO 总结得非常直接:“我们所有提示都为 OpenAI 优化过了,每个 prompt 都有特定的结构和细节。要切到另一个模型,不仅要重新调教所有提示,还可能影响整个工作流的稳定性。”
11. 外部评估基准日渐成为“模型采购的第一道筛选”
随着模型数量激增,企业采购者也越来越依赖类似 Gartner 魔力象限那样的外部评价体系,如 LM Arena。这类评估为模型采购提供了初筛参考。
尽管企业仍高度重视内部基准测试、金标数据集和开发者反馈,但外部指标正在成为“第一道门槛”。不过,企业普遍强调:外部 benchmark 只是评估的一部分,真正决定性因素仍然来自实际试用和员工反馈。
四 应用:AI 应用加速落地,企业从“自建”转向“采购”
12. 企业从“自己开发”向“购买成品”大幅转变
AI 应用生态正在迅速成熟。过去一年,企业从“自己构建”向“采购专业第三方应用”的转变非常明显。
原因主要有两个:
(1)性能与成本的动态差异使持续评估和调优成为必要,而这通常更适合由专业团队而非内部团队执行;
(2)AI 领域演进迅速,内部自研工具难以长期维护,且未必构成竞争优势,反而降低了“自建”的性价比。
例如,在客户支持场景中,超过 90% 的受访 CIO 表示正在测试第三方应用。一家上市金融科技企业曾尝试自研客户服务系统,但最终决定转向采购成熟方案。这一趋势在医疗等高风险行业尚未完全展开,因数据隐私与合规仍是首要考量。
13. “按结果计费”仍不被 CIO 广泛接受
尽管“按效果付费”被广泛讨论,但企业在实践中仍有诸多顾虑——例如结果定义模糊、归因困难、成本不可控等。多数 CIO 表示:他们更倾向于按使用量计费的方式,因为这更直观、可预测、可控。
14. 软件开发成为首个“杀手级”AI 应用场景
虽然 AI 已在内部搜索、数据分析、客户服务等多个领域落地,但软件开发的应用爆发最为显著。这得益于三重利好:
(1)模型能力显著提升;
(2)现成工具质量极高;
(3)投资回报率直接可见,适用行业广泛。
一家高增长 SaaS 公司 CTO 表示,他们现在近 90% 的代码由 Cursor 和 Claude Code 生成——而一年前使用 GitHub Copilot 时,仅占比 10-15%。这种跃迁式采用虽仍属于前沿现象,但可能正是企业界未来的风向标。
15. Prosumer 市场(生产者消费者融合)拉动应用早期增长
强消费品牌带动企业采购决策的现象再次上演。
ChatGPT 是典型案例:许多 CIO 表示购买企业版 ChatGPT 是因为“员工用得惯、喜欢、信得过”。从生产者市场向企业端的自然延伸,加速了新一代 AI 应用的增长。
16. AI 原生应用的速度与质量正在超越传统巨头
虽然传统厂商拥有渠道优势和品牌信任,但在产品质量与迭代速度上,AI 原生公司已开始超越。例如在编码工具领域,Cursor 这类专为 AI 场景构建的工具,让用户对传统的 GitHub Copilot 明显“不再满意”。
一位公共安全行业 CIO点出:“第一代和第二代 AI 编码工具差异极大。新一代原生产品更智能,也更实用。”
展望未来:企业级AI 的“试验时代”已经结束
企业部署 AI 不再是试验项目,而是战略行动。预算已经常态化、模型选择多元化、采购流程标准化、AI 应用开始系统落地。尽管用例碎片化,但这正是企业拥抱的方向。一些关键厂商正在脱颖而出,企业也越来越多选择成品应用以加速落地。
市场形态愈加接近传统软件,但变化节奏与复杂性却完全不同——这是 AI 的特有节奏。
本文来自微信公众号 “产业家”(ID:chanyejiawang),作者:产业媒体,36氪经授权发布。