今天下午,阶跃星辰在 WAIC 2025 开幕前夕发布新一代基础大模型 Step 3,并宣布将在 7 月 31 日面向全球企业和开发者开源。
模型开源
Step-3 会在 7月31号正式开源
MoE 架构,321B 总参,38B 激活
Step-3 Model Card
性能领先,成本极致
Step-3 作为推理模型,具备视觉能力,并在多个榜单,如 MMMU、AIME2025 上,取得了开源多模态推理模型的 Sota
(注:DeepSeek R1 并不支持视觉输入)
Step-3 通过一系列的架构创新,极大降低了推理成本:国产芯片上的推理效率最高可达 DeepSeek-R1 的300%,且对所有芯片友好;在基于 NVIDIA Hopper 架构的芯片进行分布式推理时,Step-3 相较于 DeepSeek-R1 的吞吐量提升超 70%
BenchMark
模芯生态创新联盟
联合近 10 家芯片及基础设施厂商,共同发起“模芯生态创新联盟”,致力于打通芯片、模型和平台全链路技术,为企业和开发者提供高效易用的大模型解决方案,加速应用落地。
模芯生态创新联盟
该联盟的首批成员包括:华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等
目前,华为昇腾芯片已首先实现Step-3的搭载和运行。沐曦、天数智芯和燧原等也已初步实现运行Step-3
其它联盟厂商的适配工作正在开展
以上,来自官方
以下,则是独家
Step-3 如何让超大规模的AI模型,变得便宜又好用
以及...
详细的技术报告地址:https://docs.qq.com/pdf/DY01kUnNTZ0d3Y2Zy?
背景
芯片管制,让国内高端算力卡一直紧缺
在这种情况下,倒逼我们走出了另一条独立自研之路:用中国力量,也能做好世界大模型
最先展露头角的是 DeepSeek
作为第一梯队的模型厂,在春节期间以「低训练成本、国产卡部署」火遍全球,在国产 910B 上,跑出世界故事
来自 DeepSeek v3 Tech report
而今天,Step-3 进行了更进一步的探索,用全新架构,让模型达到了 DeepSeek 的 最高 3 倍性能
接下来,容我细细道来
如何评估模型的成本
可能你在很多稿件里,看到过这么一种描述:
“xxx 大模型,把推理成本降低了 70%”
然后你去问:“出处在哪”
答曰:“不知道”
所以,我们先来探讨:
怎么去评估模型的成本
我们每个人,都当过「人肉大模型」
回想看看,做「现代文阅读理解」的时候
考卷给到一篇文章,如:《一种美味》
然后,再给你一个问题:
分析文中"草鱼眼里闪着一丝诡异的光"的寓意
草鱼:"要有光"
你会怎么做呢?
先预览,通读全文,一目十行、快速把握大意
接着做题,反复翻阅试卷、寻找关键信息、写下一个个 token
过程中,会不断回顾上文,确保回答准确
考试技巧:如何人肉 attention
大模型的推理,与此极为相似
具体来说,在拿到问题后,流程是这样:
用预填充(Prefill)通读全文,对用户的输入,建立整体理解
用解码(Decoding)对应写做题,过程中,不断回顾已有信息,逐字生成回答
做题时,最耗时的是「翻卷子+思考内容」,其次是「找思路」
大模型的「翻卷子」,叫做「KV Cache」,极度消耗内存带宽;
大模型的「思考内容」,叫做「Attention 计算」,极度消耗内存计算资源
大模型的「打草稿 & 写答案」,叫做「FFN(前馈网络) 和 Linear before&after Attention」
大概就是这样
来,让我们列俩公式:
做题用时 = 读题用时 + 作答用时
= 读题用时 + 「翻卷子 + 思考用时 + 作答用时」
推理成本 = 预填充成本 + 解码成本
= 预填充成本 + 「KV Cache 成本 + Attention 计算成本 +...」
下面是一些开源模型,在 8k 和 32K 的上下文长度下,所产生的计算开销
8k 上下文下,计算量表现
32k 上下文下,计算量表现
从上述结构来看,解码阶段的成本大头,来自内存访问(KVCache)和计算处理(Attention/FFN)
所以,降低推理成本最直接有效的方式,就是从这两个最“烧钱”的点入手,分别优化内存调度和计算效率
现有方案的困境
对于推理成本优化,很多方案可能「用力过猛」,陷入两个极端:
极端一:为了省内存,把GPU累死
有些模型会压缩内部中间信息(比如 KV Cache),以减少显存占用。这确实节省了内存,但也让模型在每次访问这些信息时变得更复杂,访问速度更慢,延迟更高。整体推理效率下降,尤其在带宽受限的设备上更为明显。
极端二:为了省计算,让GPU吃不饱
另一类模型为了节省计算资源,每次只启用很小一部分模块参与计算。虽然听起来更“省”,但因为剩下的硬件没有参与工作,资源被浪费,推理速度也不一定快,反而导致整体性价比变差。
而 Step-3 则通过一系列设计,从一开始就让模型与硬件相互匹配,去做一款能力强、成本低的模型
Step-3 的方案
Step-3有两个核心创新:
- 一个在系统层,AFD分布式推理系统
- 一个在模型层,MFA注意力机制
并且,基于这俩创新,带来了协同设计的变化,让我们分别来说
AFD 分布式推理
AFD(Attention-FFN Disaggregation)是一种由 StepFun 团队提出的推理架构
它的核心思想是:
把模型中不同类型的工作,分配给最合适的硬件去执行
有点“人尽其才,物尽其用”的感觉
给每个人,分配合适的工作
而模型的推理计算任务,主要包括两类:
- 一种是注意力(Attention),极度消耗内存带宽、
- 另一种是前馈网络(FFN)计算,它极度消耗算力
传统做法,是把这两种任务交给同一组 GPU 同时处理,但这样很容易造成资源浪费:
- 有时候带宽紧张,算力闲着
- 有时候算力吃紧,带宽又空着
AFD 的做法是把 Attention 和 FFN 拆开,分别部署到不同类型的GPU集群上:
- 内存带宽大的GPU集群,专门负责「注意力」计算
- 算力强大的GPU集群,专门负责「FFN」计算
两组集群各司其职,形成高效流水线
通过“拆分-调度”的模式,把资源用在了刀刃上,极大提升了整体效率
模型创新:MFA 注意力机制
Step-3 的第二个核心创新,是引入了 MFA注意力机制(Multi-Matrix Factorization Attention)
但在讲 MFA 之前,让我们来认识一个概念:“算术强度”(Arithmetic Intensity),可以把它理解成一个「任务与硬件的匹配度」指标
每种GPU芯片,根据其算力和内存带宽的比例,都有一个最适合它的“算术强度”甜蜜区
算法的算术强度越接近芯片的甜点区,运行效率就越高,成本就越低
不同 GPU 的甜蜜点 roofline
注
数值越高,代表该芯片“算力”相对“内存带宽”越富余
过去的大模型设计往往很极端:
- 一些模型(如DSv3):算术强度高达512。这个值只和顶级芯片H800(591)匹配,但在A800(156)或910B(175)上,就像让跑车发动机去拉一辆重型卡车,劲使不出来,效率极低。
- 另一些模型(如Qwen3):算术强度只有32。这个值太低,在大部分芯片上都会先把内存带宽占满,而核心的计算单元却大量闲置。
而 Step-3 的MFA,把算术强度控制在了128
这是一个“黄金中间值”,它完美地贴合了A800、910B等主流和国产芯片的“甜蜜区”,同时在H800和H20上也能保持很高的效率
- 和 A800、910B 等主流芯片的理想区间非常接近• 在 H800、H20 等更强的芯片上也能保持高效率
- 即使未来采用 4-bit 量化、MTP 等技术,算术强度翻倍后依然不会“超标”
可见,MFA让 Step-3 更容易适配不同类型的硬件设备:不挑卡,跑得快,也跑得省
协同设计
在我看来,Step-3 最与众不同的地方,是其「系统与模型协同」的设计理念
在传统方案中,模型结构和推理系统往往是分开考虑的,导致优化时容易顾此失彼。
而 Step-3 通过 AFD 系统,将注意力(Attention)和前馈网络(FFN)分开部署,让每部分都能在适合的硬件上高效运行。据此,Step-3 可以清晰地分析并优化每一部分的性能瓶颈,而不必被整个庞大的模型所束缚。
MFA机制正是这个优化思想下的产物**。团队识别出注意力部分是推理成本的主要来源,于是设计了新的 MFA 注意力机制。它的算术强度被精心设定在 128,刚好贴合主流 GPU 的性能特征,实现了跨硬件平台的高效推理。
此外,MFA 的算术强度还特意留有余地,略低于硬件的上限(Roofline),为后续优化技术预留空间,比如更低位的量化或多 token 预测(MTP)。
这种设计,也为Step-3的持续进化埋下了伏笔
实测:成本到底降了多少
在这块,我摸来了点数据,看下图
不同上下文下,成本测算
总结一下:
- H20:Step-3 的成本仅为 DSv3 的 30%
- 910B:效率是 DeepSeek R1 的 3 倍
- A800:成本低于所有同类模型
为什么差距这么大?
Step-3的设计,正好匹配了这些GPU的硬件特性,资源利用率显著更高
另一个测试,是实际吞吐量的对比:
不同 GPU 下的吞吐量
总结:
- Step-3 使用 32 张 Hopper GPU,吞吐量达到 4039 tokens/GPU/s
- DSv3 使用 128 张 Hopper GPU,官方数据仅为 2324 tokens/GPU/s
Step-3 (FP8)用四分之一的卡,跑出了更高的速度。
如果拿来更多的硬件呢?
MFA vs MLA vs GQA
进一步拆解到单独的 Attention 层,差距更明显(在 32k 下):
- H800: MFA 比 MLA 快约 1.4 倍,比 GQA 快约 1.8 倍• H20:MFA 比 MLA 快约 3.3 倍,比 GQA 快约 2.1 倍
- A800:比 GQA 快约 2 倍
Step-3 的 MFA 在所有测试硬件上都明显优于 MLA 和 GQA,尤其是在 H20、A800 等更具成本优势的 GPU 上,效果更为突出
越是“平价”设备,Step-3 的效率优势越明显。
补充
MLA是 DeepSeek 的,GQA 是 Qwen 的
最后
先让我们回到开头的「模芯联盟」:
模芯生态创新联盟
让搞模型的人和搞硬件的人坐在一起,软硬件系统设计
以及开头的「开源」:
Step-3 开源 Sota
让硬件厂商,根据模型特点优化芯片,或许才是重点
成本降下来,用的场景就多了
技术进步的意义,大概如此
文章来自微信公众号 “ 赛博禅心 “,作者 金色传说大聪明