被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬

被骂“在乱讲”的专家,这次可能说对了:传统数据仓库正在被 Agentic AI 吞噬

4.8
0热度

从技术架构的角度看,我认为这一次的 AI 浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着 Agentic AI 时代来临,最终的“消费者”更可能是 Agent,对数据仓库和复杂 ETL 链路将被重新设计,甚至消失。传统数据仓库偏重结构与查询模式,会被 Agentic Data Stack 架构强调语义与响应模式取代。本文作者的原标题为《 传统数

从技术架构的角度看,我认为这一次的 AI 浪潮将深刻影响整个软件生态。DSS 系统的设计是以人作为最终消费者的决策支持逻辑为中心,然而,随着 Agentic AI 时代来临,最终的“消费者”更可能是 Agent,对数据仓库和复杂 ETL 链路将被重新设计,甚至消失。传统数据仓库偏重结构与查询模式,会被 Agentic Data Stack 架构强调语义与响应模式取代。本文作者的原标题为《 传统数据仓库正在被 Agentic AI 吞噬?Agentic Data Stack 初探》。 

引言:Snowflake 换 CEO 背后的信号 

2024 年春天,云数据仓库的明星公司 Snowflake 宣布换帅,前 Google 广告业务负责人 Sridhar Ramaswamy 接替了曾带领 Snowflake 实现 600 亿美元估值的传奇 CEO Frank Slootman

如果你只是把这当成一次高管轮换,理解就不够透彻,因为这背后真正的隐喻是,数据仓库世界的范式,正在悄然巨变

“技术的演进,从来不是线性推进,而是技术的跃迁,从 OLTP 数据库到 MPP 数据仓库,从 MPP 本地化计算到向量化云数仓引擎,都是一个技术跃迁到另一个技术,从一个产品霸主到另一个产品霸主。”

Slootman 是“数据仓库黄金时代”的代表。他押注云原生、押注多租户架构、押注 Snowflake 成为新一代数据平台的中枢,直接在市场上干掉了我从业的第一家公司——当年的数据仓库霸主 Teradata(从 102 亿美金市值到现在 20 亿美金市值)。就在他功成身退的这一刻,Snowflake 官方博客的关键词悄然切换:AI-first、Agent-driven、语义导向的数据架构。

这不是巧合,这是风向。

同一时间,硅谷最具前瞻性的风投们正在押注“Agentic AI”这个新概念:AI 不再只是一个模型,它是一个能感知、能行动、有目标、有协作能力的 Agent

那么问题来了:

当 AI 不再只是“聊天工具”,而是能主动感知业务变化、理解意图并执行操作的智能体时,传统数据仓库这样的为“人”建造的决策支持系统还可以满足 Agent 的需要么?

数据仓库曾是企业的“重要的数据资产”,如今,却可能沦为 Agent 的“数据素材库”。甚至连“素材”这个词都在贬值,因为 Agentic DataStack 可以直接访问原始数据,并以语义 + 数据的形式直接供给给上层各类 Sales Agent,Risk Agent 直接使用;而数据仓库里无语义、冗余的数据只能留给传统 BI 和数据开发人员来消费。

真正危险的不是被淘汰,而是你还在运行上一代范式的规则,而世界已经换了剧本。

这不是对数仓的轻视,而是历史的轮回。正如当年 Hadoop、Iceberg 的崛起重构了数据湖,今天,Agentic AI 正在重写企业级的大数据架构。

1970-2024:数据仓库架构是如何演进的 

1970:数据仓库之父:Bill Inmon 

数据仓库之父 Bill Inmon 首次提出“面向主题、集成、时变、不可更新的数据集合”这一概念(EDW),奠定了后半个世纪企业数据架构的基石。

我本人也有幸在 20 多年前在北京大学的时候,在唐世谓教授带领下,学习并参与翻译《数据仓库》第一版,这本书里对主题域、数据分层架构和缓变维(历史拉链表)的描述,从上个世纪一直沿用到今天,成为整体数据仓库的奠基之作。

1983:Teradata 诞生,MPP 架构横空出世 

1983 年诞生了未来 30 年横扫所有企业数据仓库基础设施的公司 Teradata,这也是我毕业后第一份工作所在的公司。首次将 MPP(大规模并行处理)架构引入数据处理系统,Teradata 凭借软硬一体的基于 Bynet 的 MPP 架构,在超大量级数据处理和复杂 SQL 的情况下,比 Oracle、DB2 效率高出数倍。第一次使用 Teradata 的时候我的惊喜不亚于后来我首次测试使用 ClickHouse 做宽表查询时的惊诧。

我加入 Teradata 的时候,他还是一个 NCR 旗下的部门,我名片 logo 是这样子的,想了解 Teradata 的同学可以看我这一篇文章《再见,我的数仓黄埔军校,Teradata 正式退出中国!》。

1996:Kimball 提出“雪花模型”,OLAP 引擎出现 

继 Bill Immon 之后,Ralph Kimball 提出了“数据集市的概念”用星型模型和雪花模型重新定义了数据建模思维。此后数十年间,先建立数据集市还是先建立统一的数据仓库,变成数据仓库架构师不停争论的话题。“维度建模”和“雪花模型”成为数据工程师的名片;而 BI 报表底层也出现了例如 Hyprion ESSbase,Cognos 等 MOLAP 引擎,OLAP 技术也终于有了系统方法论支撑。

在几十年后,新一代的数据仓库公司也用了 Snowflake(雪花模型)作为其公司名称。

2013:大数据概念爆发,Hadoop 风靡全球 

随着 2006 年 Apache Hadoop 的横空出世,低存储成本的大数据系统被企业广泛引用。维克托·迈尔 - 舍恩伯格在《大数据时代》中给大数据下了定义:Volume(数据量)、Velocity(数据速度)、Variety(数据多样性)、Value(数据价值)。”

2015 年郭大侠(郭炜)和舍恩伯格合照

从此轰轰烈烈的建立大数据平台的过程开始起步,10 年内,Apache Hadoop、Hive、Spark、Kafka、DolphinScheduler、SeaTunnel、Iceberg……一批大数据技术涌现,大数据平台开始动摇传统数据仓库的地位,以致于 2015 年后的中国,大多数中国企业存储 Pb 数据量级的数据平台不会用 MPP 架构传统意义数据仓库,而一定是用 Hadoop 或者 Iceberg 大数据平台 / 数据湖。

2015:Snowflake 横空出世,New DataStack 兴起 

随着云的兴起,Marcin Zukowski  “向量化”引擎论文的推出,Snowflake 横空出世用云原生分离存算的架构,彻底颠覆了传统 DW 思维。BI 工程师第一次可以“随需随用”、弹性扩缩容、不再焦虑集群调度和资源分配。Snowflake 把“数仓”变成了“数云”。它带领下一众新一代数据仓库技术栈兴起,Fivetran、Daggster、Airbyte、DBT、WhaleStudio 等一批新一代工具出现,在硅谷兴起了 New Data Stack (新数据技术栈)的风潮。的确,上一代 ETL 工具和编程工具还是上个世纪 80 年代兴起的 Informatica、Talend、DataStage 这些公司,新技术的兴起的确需要新生态的形成。

整体上,这几十年数据仓库的发展,无论是数据仓库、大数据平台和云数仓和数据湖,基本上整体架构都如下图所示:

在 Inmon 时代,这个架构叫做 DSS 系统(决策支持系统),顾名思义,决策支持的就是人。整个数据仓库技术栈都是为人而设计的。

数据仓库的架构也是为数据开发工程师(Data Engineer)来设计的,所以会有 N 个主题域、要分原子层、汇总层、指标层来帮助 ETL 工程师进行开发,BI 工具也需要建立星型模型和雪花模型,拖拉拽可视化形成报表和 Dashboard。所有的消费者都是人。

但是,这一切,在大模型 Agent 时代都会发生很大的变化。

Agent 正在吞噬传统数据仓库?! 

2022 年底,OpenAI 推出 ChatGPT,引爆大模型时代。

2023 年后,Llama、Claude、Gemini、GPT-4o、DeepSeek……多模态模型加速演进,AI 不再只是语言模型,而是具备复杂任务理解与决策能力的“通用智能引擎”。

2024 年,RAG 技术走向主流,LlamaIndex、LangChain、Dify 等工具广泛应用,AI 开始融合企业私域知识,成为真正“能查资料”的智能助手。

2025 年,Agent 架构全面崛起,AutoGPT、Function Calling、MCP 协议等技术和协议涌现,AI 不再只是聊天工具,而是具备感知、规划与执行能力的“数字员工”。

在数据领域,大模型的到来也带来很大的冲击。你用过 ChatGPT 的 DataAnalyst 么?如果用过,你一定惊异它的表现,它可以根据一份数据多个角度来辅助一个业务人员做一份详细的数据分析报告。它几乎可以替代初级数据分析师。而在不同层次也出现了很多“自动化”工具,例如 ChatBI、TXT2SQL,各个维度都开始利用大模型和 Agent 自动化和半自动化地进行数据仓库开发过程。

未来,会有越来越多的 Agent 出现,不仅仅是数据分析领域,更多的的广告投放 Agent,客服 Agent,Risk Managment Agent,它们将逐步解放现有的业务人员,替代他们与系统之间的交互。

最终,AI 不再是“被动回答问题的工具”,而是“主动达成目标的智能体”。

过去 20 多年,数据平台的“用户”通常是数据工程师、分析师和 BI 人员。

而未来的 20 年,从分析师到供应链,每一个岗位的角色都可能被 Agent 所重构

营销人员配有 Campaign Agent,它可以自动整合多渠道数据、优化投放、生成文案;

客服坐席配有 Support Agent,它就不只是聊天机器人,而是具备知识图谱和上下文记忆的专属助理;

供应链部门配有 Procurement Agent,它就能解析订单、追踪货期、调用 ERP 数据并自动补货;

法务有 Compliance Agent,HR 有 Hiring Agent,董事会也有 Board Agent……

你过去每天写的 SQL、做的分析报告、开的运营会,正在变成一个个 Agent 的触发动作、语义指令和自动响应。

但一个现实问题随之而来:

如果最终数据消费者都已经是 Agent,数据仓库开发也是 Agent,连具体使用数据的决策者都是 Agent 而不是“用户”的时候,原先为人设计的“决策支持系统 DSS”数据仓库整体架构还成立么?

学过软件工程的 IT 码农们都知道,设计一个系统首先要做的图就是“Use Case”图,确定系统和用户的边界和操作场景与行为。

当数据仓库的用户从人变成 Agent 的时候,原先 Bill Inmon 老爷子设计的整体 DSS 架构还成立么?我个人认为,不成立了。

软件用户变了,软件也必须变。

Agent 的爆发,并不是大模型本身的胜利,而是“用户体验认知”被彻底颠覆:

过去的数据系统,是“拉模式”:用户知道问题、查询数据、提取结论。

未来的 Agent,是“推模式”:系统主动感知变化,理解意图,生成决策建议。

这就像我们从传统地图升级到高德导航:

你不再需要知道“路在哪儿”,而是告诉系统你要去哪,它带你过去。

传统数据仓库偏重结构与查询,而 Agentic 架构强调语义与响应。

简而言之,谁能理解业务语言,谁就能统治数据世界。

Agentic Data Stack 和自带上文的数据 Contextual Data Unit 

对于 Agent 自动开发和使用来讲,当前数据仓库整体设计并不是为大模型和 Agent 设计的,所以,里面存储的都是“裸”数据。只有具体的数值和字段名称,而这个数值、这个字段名称是做什么用的,都存在另外一个叫做“数据资产”的项目里。想把每个数值、字段搞明白,需要进行一个“数据治理”的项目才可以完成。这个设计,对于语义才可以进行推理的大模型和 Agent 太不友好了。所以,如果为 Agent 和 大模型重新设计大数据存储系统的话,一定需要把“数据”+“语义”放到一起存储,我管它叫:

Contextual Data Unit(CDU):语义 + 数据组合单元,每个数据自带语义和语义解释的二元组合。

把过去在数据目录(Data Catalog)里的信息,融合在每个数据条目当中,减少 Agent 和大模型访问的时候重新从其它系统里检索的时间和错误概率。

同时,CDU 里面的语义数据也是从业务系统里经过总结和推衍得来的,所以,这里的数据本身,就是在 Data Flow Agent 从源头就组合成 CDU,ETL/Data Ingesstion 到 Agentic Data Lake 里,而不是后期生成的。换句话说,数据治理和溯源的过程是融入在 Agent 的自动开发过程当中,而不是现在的做法——在数据进入数据仓库之后,再开始血缘分析、数据治理一系列的复杂操作,这样做的结果数据很容易具有争议。

到这里,大家应该看懂我的思路了,Agentic AI 时代,从过去的数据仓库 ETL 到数据存储,到数据应用分析,都会因为消费者是 Agent 和大模型而发生很大的变化。为了服务这些智能体,传统数据平台必须演进出一套 Agent 可调用、语义感知、事件驱动的数据架构——也就是我们所说的 Agentic Data Stack

Agentic Data Stack:在 Agent 时代,从底层数据获取“语义 + 数据”的工具,到支持 CDU 格式计算和存储的计算平台,到最终供给各 Agent 使用数据的数据交互层新一代的数据技术栈。

我大胆猜测下,未来 Agentic Data Stack 可能有以下组件组成:

“数据交互层”(Semantic Orchestrator):不再是传统意义上的 BI/ 查询界面,而是变成 Agentic 数据架构中的“大脑”和“指挥中心”,它通过自然语言理解和语义推理能力,作为 其它 Agent 与底层数据资源之间的桥梁,实现智能化、多轮次的数据交互与服务生成。

“数据存储层”(Data Mesh):不再是传统意义上的 Data Warehouse(数据仓库) 或 Data Lake(数据湖),而变成了一种服务性的、计算友好的数据融合层。这个层的本质是 “存储提供融合语义 + 数据,既可供给大模型进行复杂计算的存储,也可以提供即时复杂计算能力”

“数据处理层”(Data Flow Agent):不再是“搬数据”,而是“理解和编排数据”;不再定时运行,而是 事件驱动 + 意图驱动;能主动发现数据变化、分析表结构、理解业务语义、做出响应。

在 Agentic AI 时代,数据仓库和大数据平台的建设周期将极致地缩短,新数据的获取经过 Data Flow Agent 的自发发现,在 Data Mesh 中预存储,Semantic Orchestrator 解析和实际业务场景的业务口径与对应,最终实现从业务需求到数据响应的“即时计算”。

大模型解决的是智慧的大脑,Agent 解决的是手和脚,Agentic DataStack 是让 LLM 和 Agent 具有适合大模型时代快速的数据获取能力。

Agentic AI 时代,随着建立新一代“数据仓库”成本显著降低,拥有可以自由对话查询,拥有相关的数据不再是大企业的权利,更是小企业甚至个人的权利。你可以把你的 Google Drive,家里的私有 NAS,电脑上的 PDF,手机里的 APP 订单通过 Data Flow Agent 捕获到个人的数据存储里,用交互层 APP 快速查询例如“上个月去 Disney Land 游玩一共花了多少钱”这种过去问题,而这种问题过去需要从多个平台整理到 Excel 表格里记录,甚至还可以解决“找到 5 年前保险订单及相关合同”这种复杂问题。

而这些并不是天方夜谭,最近由白鲸开源主导的 Apache SeaTunnel 社区里发布了 Apache SeaTunnel MCP Server,已经开始 了迈向 Data Flow Agent 的步伐。当然,中间还有很多未解决的技术问题,例如 A2A 协议还不够完善,DataMesh 层的“语义 + 数据”存储计算结构还没有突破;把过去数据治理的成果变为 Semantic Orchestrator 输入也是需要时间来探索。

但是,大模型和 Agent 时代的到来,对于整个数据分析行业来说,就像从过去没有 SQL 语言到出现 SQL 语言之后的进展一样,都会发生深刻的变化。

打败你的,永远不是你现在眼中看到的所谓的“竞争对手”。讲个故事,小时候,我熟悉两个自行车品牌——永久和凤凰。它们曾在“加速轴”技术上竞争,看谁能跑得更快。然而,真正颠覆自行车市场的,却是一家外卖公司推出的共享单车,彻底改变了整个行业格局。随着 Agent 时代的到来,许多曾被视为核心的产品路线可能会失去意义。在低头看路的时候,也要抬头看天。

小结:活在当下,放眼未来 

我在 AICon/AWS Community Day 和其它几个技术峰会上分享这个认知的时候,台下观众完全分成两派:一派是“降临派”,认为我估计 Agentic Data Stack 到来 5-10 年 太保守,AI 发展日新月异,5 年内 Agentic Data Stack 就会成型。一派是“保守派”,认为 AI Agent 影响整个数据仓库架构太扯了,不可能发生,当前数据仓库存储形式就是最优 ROI 的数据存储方式,任何不是最优 ROI 的形式都无法普遍商业化,都只是空中楼阁,不要听这些“AI 专家”乱讲。

而我个人是“中间派”:在趋势上,我认为 Agentic Data Stack 形成是一个必然,这轮 AI 对技术架构的影响和前几次是完全不同的。不能只从技术观点上看数据仓库存储计算层 ROI 的产出,而要看当前企业数据仓库整体建设过程和维护过程的投入算总账。当前来看,实时数据仓库的兴起,数据湖的扩大,现在的数据仓库设计的层数在明显减少(我甚至认为我们这一批当年 Teradata 训练过的模型架构师退役之后,市场上都没有专业的数据仓库模型架构师了,因为业务变化太快,传统数据仓库专业模型设计跟不上变化)。所以在高速变更的业务情况下,传统数据仓库理论自己也在迭代,(现在实时数据仓库模型变成 2 层了,而不是过去的  3 层、4 层),只不过我看到的是未来 Agentic AI 时代一步到位的趋势而已。算总账,Agentic Data Stack 会明显比现在的全套数据仓库 New Data Stack ROI 高很多。

但是,这个趋势也不是马上能降临的,以我 2016 看中 ClickHouse 这个产品开始在中国运营社区,到 2020 年几乎成就了一代“实时 OLAP”引擎标准的时间来看,有现成产品到被大家接受也要 4-5 年时间,而 Agentic Data Stack 只有部分组件有一些创业公司雏形,大部分组件和核心产品还没有出世,也不可能 5 年内就一统天下。如果说节奏,我估计怎样也在实时数据仓库和数据湖被大面积企业接受之后,才可能到下一步 Agentic Data Stack。

“不是 AI 取代你,而是会用 AI 的人取代你;不是数据仓库被吞噬了,而是传统数据仓库偏重结构与查询模式,被 Agentic Data Stack 架构强调语义与响应模式取代了。就像用上高德地图导航的人,不会再去看传统地图了。”

Agentic Data Stack 的门已经徐徐打开。

你,准备好了吗?

本文来自微信公众号“InfoQ”,作者:郭炜,36氪经授权发布。

首页 发现
看过 我的