AI热点 15 hours ago 161 Views 0 Comments

冲上热搜!美团大模型,靠「快」火了

机器之心Pro

全球人工智能信息服务 Published 271 Articles

机器之心原创

编辑:张倩、陈陈

国内外开发者:亲测,美团新开源的模型速度超快!

当 AI 真的变得像水和电一样普及之后,模型强不强已经不是大家唯一关心的问题了。

从年初的 Claude 3.7 Sonnet、Gemini 2.5 Flash 到最近的 GPT-5、DeepSeek V3.1,走在前面的模型厂商无一不在思考:在保证准确性的前提下,如何让 AI 既能以最少的算力去解决每一个问题,又能在最短的时间内给出回应?换句话说,就是如何做到既不浪费 token,也不浪费时间。

对于在模型上构建应用的企业和开发者来说,这种从「单纯构建最强模型到构建更实用、更快速模型」的转变是个好消息。而且更加令人欣慰的是,与之相关的开源模型也逐渐多了起来。

前几天,我们在 HuggingFace 上又发现了一个新模型 ——LongCat-Flash-Chat

这个模型来自美团的 LongCat-Flash 系列,官网可以直接使用(https://longcat.ai)。

它天然知道「not all tokens are equal」,因此会根据重要性为重要 token 分配动态计算预算。这让它在仅激活少量参数的前提下,性能就能并肩当下领先的开源模型。

LongCat-Flash 开源后登上热搜。

同时,这个模型的速度也给大家留下了深刻印象 —— 在 H800 显卡上推理速度超过每秒 100 个 token。国内外开发者的实测都证实了这一点 —— 有人跑出了 95 tokens/s 的速度,有人在最短时间内得到了和 Claude 相媲美的答案。

图源:知乎网友 @小小将。

图源:X 网友 @SlavaMorozov。

在开源模型的同时,美团也放出了 LongCat-Flash 的技术报告,我们可以在其中看到不少技术细节。

  • 技术报告:LongCat-Flash Technical Report
  • 报告链接:https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf
  • Hugging Face: https://huggingface.co/meituan-longcat
  • Github: https://github.com/meituan-longcat

在这篇文章中,我们将详细介绍。

大模型怎么省算力?

看看 LongCat-Flash 的架构创新和训练方法

LongCat-Flash 是一个混合专家模型,总参数量为 5600 亿,可以根据上下文需求激活 186 亿至 313 亿(平均 270 亿)个参数

用来训练该模型的数据量超过 20 万亿 token,但训练时间却只用了不到 30 天。而且在这段时间里,系统达到了 98.48% 的时间可用率,几乎不需要人工干预来处理故障 —— 这意味着整个训练过程基本是「无人干预」自动完成的。

更让人印象深刻的是,这样训练出来的模型在实际部署时表现同样出色。

如下图所示,作为一款非思考型模型,LongCat-Flash 达到了与 SOTA 非思考型模型相当的性能,包括 DeepSeek-V3.1 和 Kimi-K2,同时参数更少且推理速度更快。这让它在通用、编程、智能体工具使用等方向都颇具竞争力和实用性。

此外,它的成本也很亮眼,仅为每百万输出 token 0.7 美元。这个价格相比市面上同等规模的模型来说,可以算是非常划算了。

从技术上来说,LongCat-Flash 主要瞄准语言模型的两个目标:计算效率与智能体能力,并融合了架构创新与多阶段训练方法,从而实现可扩展且智能的模型体系。

在模型架构方面,LongCat-Flash 采用了一种新颖的 MoE 架构(图 2),其亮点包含两方面:

  • 零计算专家(Zero-computation Experts);
  • 快捷连接 MoE(Shortcut-connected MoE,ScMoE)。

零计算专家

零计算专家的核心思想是并非所有 token 都是「平等」的。

我们可以这样理解,在一个句子中,有些词是非常容易预测的,如「的」「是」,几乎不需要计算,而有些词如「人名」则需要大量计算才能准确预测。

在以往的研究中,大家基本采用这种方式:即无论这个 token 是简单还是复杂,它都会激活固定数量(K)的专家,这造成了巨大的计算浪费。对于简单 token 来说,完全没必要调用那么多专家,而对于复杂 token,则可能又缺乏足够的计算分配。

受此启发,LongCat-Flash 提出了一种动态计算资源分配机制:通过零计算专家,为每个 token 动态激活不同数量的 FFN(Feed-Forward Network) 专家,从而根据上下文的重要性更合理地分配计算量。

具体而言,LongCat-Flash 在其专家池中,除了原有的 N 个标准 FFN 专家外,还扩展了 Z 个零计算专家。零计算专家仅将输入原样返回作为输出,因此不会引入额外的计算开销。

LongCat-Flash 中的 MoE 模块可以形式化为:

其中,x_t 为输入序列中的第 t 个 token,R 表示 softmax 路由器,b_i 表示第 i 个专家对应的偏置项,K 表示每个 token 所选中的专家数量。路由器会将每个 token 分配给 K 个专家,其中被激活的 FFN 专家数量会根据该 token 的上下文重要性而变化。通过这种自适应的分配机制,模型能够学习到对上下文更重要的 token 动态分配更多的计算资源,从而在相同的计算量条件下实现更优的性能,如图 3a 所示。

另外,模型在处理输入时,需要学会根据不同 token 的重要性,来决定到底要不要花更多计算资源。如果不去控制零计算专家被选中的频率,模型可能会偏向于选择有计算的专家,忽视零计算专家的作用。从而造成计算资源效率低下。

为了解决这一问题,美团改进了 aux-loss-free 策略中的专家偏置机制:引入专家特定的偏置项,该偏置能够根据最近的专家使用情况动态调整路由分数,同时又与语言模型的训练目标保持解耦。

更新规则采用了控制理论中的 PID 控制器实时微调专家偏置。得益于此,模型在处理每个 token 时,仅需激活 186 亿至 313 亿(平均激活量稳定在约 270 亿)的参数量,从而实现资源优化配置。

快捷连接 MoE

LongCat-Flash 另一个亮点是快捷连接 MoE 机制。

一般而言,大规模 MoE 模型的效率在很大程度上受到通信开销的限制。在传统的执行范式中,专家并行会引入一种顺序化的工作流程,即必须先通过一次全局通信操作将 token 路由到其指定的专家,随后计算才能开始。

这种先通信、再计算的顺序会带来额外的等待时间,尤其在大规模分布式训练中,通信延迟会显著增加,成为性能瓶颈。

此前有研究者采用共享专家架构,试图通过将通信与单个专家的计算重叠来缓解问题,但其效率受到单个专家计算窗口过小的限制。

美团通过引入 ScMoE 架构克服了这一限制,ScMoE 在层间引入了一条跨层快捷连接,这一关键创新使得:前一层稠密 FFN 的计算可以与当前 MoE 层的分发 / 聚合通信操作并行执行,相比共享专家架构,形成了一个更大规模的通信 - 计算重叠窗口。

该架构设计在多项实验中得到了验证。

首先,ScMoE 设计并不会降低模型质量。如图 4 所示,ScMoE 架构与未使用 ScMoE 的基线在训练损失曲线上的表现几乎完全一致,这证明了这种重新排序的执行方式并不会损害模型性能。这一结论在多种配置下均得到一致性验证。

更重要的是,这些结果表明:ScMoE 的稳定性与性能优势,与注意力机制的具体选择是正交的(即无论使用哪种注意力机制,都能保持稳定与收益)。

其次,ScMoE 架构为训练和推理提供了大量系统级效率提升。具体表现在:

  • 在大规模训练方面:扩展的重叠窗口使前序块的计算能够与 MoE 层中的分发和聚合通信阶段完全并行,这是通过沿 token 维度将操作分割为细粒度块实现的。
  • 在高效推理方面:ScMoE 支持单批次重叠 pipeline,相较 DeepSeek-V3 等领先模型,将理论每秒输出 token 时间(TPOT)降低近 50%。更重要的是,它允许不同通信模式的并发执行:稠密 FFN 上节点内的张量并行通信(通过 NVLink)可与节点间的专家并行通信(通过 RDMA)完全重叠,从而最大化总体网络利用率。

总之,ScMoE 在不牺牲模型质量的情况下提供了大量的性能提升。

模型扩展策略与多阶段训练

美团还提出了一套高效的模型扩展策略,能够显著改善模型在规模增大时的性能表现。

首先是超参数迁移,在训练超大规模模型时,直接尝试各种超参数配置非常昂贵且不稳定。于是美团先在较小的模型上进行实验,找到效果最好的超参数组合。然后,再把这些参数迁移到大模型上使用。从而节省了成本并保证了效果。迁移规则如表 1 所示:

其次是模型增长(Model Growth)初始化,美团先从一个在数百亿 token 上预训练过的半规模模型出发,训练好之后保留检查点。在此基础上把模型扩展到完整规模,并继续训练。

基于这种方式,模型表现出一条典型的损失曲线:损失先短暂上升,随后快速收敛,并最终显著优于随机初始化的基线。图 5b 展示 6B 激活参数实验中的一个代表性结果,体现了模型增长初始化的优势。

第三点是多层次的稳定性套件,美团从路由器稳定性、激活稳定性和优化器稳定性三个方面增强了 LongCat-Flash 的训练稳定性。

第四点是确定性计算,这种方法能够保证实验结果的完全可复现,并在训练过程中实现对静默数据损坏(Silent Data Corruption, SDC) 的检测。

通过这些措施,LongCat-Flash 的训练过程始终保持高度稳定,且不会出现不可恢复的损失骤增(loss spike)。

在保持训练稳定的基础上,美团还精心设计了训练 pipeline,使 LongCat-Flash 具备了高级智能体行为,该流程涵盖大规模预训练、面向推理与代码能力的中期训练,以及聚焦对话与工具使用的后训练。

  • 初始阶段,构建一个更适合于智能体后训练的基础模型,为此美团设计了一个两阶段的预训练数据融合策略来集中推理密集型领域的数据。
  • 训练中期,美团进一步增强模型的推理能力与代码能力;同时将上下文长度扩展至 128k,以满足智能体后训练的需求。
  • 最后,美团又进行了多阶段后训练。鉴于智能体领域高质量、高难度训练数据的稀缺,美团设计了一个多智能体合成框架:该框架从三个维度定义任务难度,即信息处理、工具集复杂性和用户交互,使用专门的控制器来生成需要迭代推理和环境交互的复杂任务。

这种设计使其在执行需要调用工具、与环境交互的复杂任务时表现出色。

跑起来又快又便宜

LongCat-Flash 是怎么做到的?

前面提到,LongCat-Flash 可以在 H800 显卡上以超过每秒 100 个 token 的速度进行推理,成本仅为每百万输出 token 0.7 美元,可以说跑起来又快又便宜。

这是怎么做到的呢?首先,他们有一个与模型架构协同设计的并行推理架构;其次,他们还加入了量化和自定义内核等优化方法

专属优化:让模型「自己跑得顺」

我们知道,要构建一个高效的推理系统,必须解决两个关键问题,一是计算与通信的协调,二是 KV 缓存的读写和存储。

针对第一个挑战,现有的方法通常在三个常规粒度上利用并行性:算子级的重叠、专家级的重叠以及层级的重叠。LongCat-Flash 的 ScMoE 架构引入了第四个维度 —— 模块级的重叠。为此,团队设计了 SBO(Single Batch Overlap)调度策略以优化延迟和吞吐量。

SBO 是一个四阶段的流水线执行方式,通过模块级重叠充分发挥了 LongCat-Flash 的潜力,如图 9 所示。SBO 与 TBO 的不同之处在于将通信开销隐藏在单个批次内。它在第一阶段执行 MLA 计算,为后续阶段提供输入;第二阶段将 Dense FFN 和 Attn 0(QKV 投影)与 all-to-all dispatch 通信重叠;第三阶段独立执行 MoE GEMM,其延迟受益于广泛的 EP 部署策略;第四阶段将 Attn 1(核心注意力和输出投影)及 Dense FFN 与 all-to-all combine 重叠。这种设计有效缓解了通信开销,确保了 LongCat-Flash 的高效推理。

对于第二个挑战 ——KV 缓存的读写和存储 ——LongCat-Flash 通过其注意力机制和 MTP 结构的架构创新来解决这些问题,以减少有效的 I/O 开销。

首先是推测解码加速。LongCat-Flash 将 MTP 作为草稿模型,通过系统分析推测解码的加速公式来优化三个关键因素:预期接受长度、草稿与目标模型的成本比以及目标验证与解码的成本比。通过集成单个 MTP 头并在预训练后期引入,实现了约 90% 的接受率。为了平衡草稿质量和速度,采用轻量级 MTP 架构减少参数,同时使用 C2T 方法通过分类模型过滤不太可能被接受的 token。

其次是 KV 缓存优化,通过 MLA 的 64 头注意力机制实现。MLA 在保持性能和效率平衡的同时,显著减少了计算负载并实现了出色的 KV 缓存压缩,降低了存储和带宽压力。这对于协调 LongCat-Flash 的流水线至关重要,因为模型始终具有无法与通信重叠的注意力计算。

系统级优化:让硬件「团队协作」

为了最小化调度开销,LongCat-Flash 研究团队解决了 LLM 推理系统中由内核启动开销导致的 launch-bound 问题。特别是在引入推测解码后,验证内核和草稿前向传递的独立调度会产生显著开销。通过 TVD 融合策略,他们将目标前向、验证和草稿前向融合到单个 CUDA 图中。为进一步提高 GPU 利用率,他们实现了重叠调度器,并引入多步重叠调度器在单次调度迭代中启动多个前向步骤的内核,有效隐藏 CPU 调度和同步开销。

自定义内核优化针对 LLM 推理的自回归特性带来的独特效率挑战。预填充阶段是计算密集型的,而解码阶段由于流量模式产生的小而不规则的批次大小往往是受内存限制的。对于 MoE GEMM,他们采用 SwapAB 技术将权重视为左手矩阵、激活视为右手矩阵,利用 n 维度 8 元素粒度的灵活性最大化张量核心利用率。通信内核利用 NVLink Sharp 的硬件加速广播和 in-switch reduction 来最小化数据移动和 SM 占用率,仅使用 4 个线程块就在 4KB 到 96MB 消息大小范围内持续超越 NCCL 和 MSCCL++。

量化方面,LongCat-Flash 采用与 DeepSeek-V3 相同的细粒度块级量化方案。为实现最佳性能 - 准确率权衡,它基于两种方案实施了层级混合精度量化:第一种方案识别出某些线性层(特别是 Downproj)的输入激活具有达到 10^6 的极端幅度;第二种方案逐层计算块级 FP8 量化误差,发现特定专家层中存在显著量化误差。通过取两种方案的交集,实现了显著的准确率提升。

实战数据:能跑多快?多便宜?

实测性能显示,LongCat-Flash 在不同设置下表现出色。与 DeepSeek-V3 相比,在相似的上下文长度下,LongCat-Flash 实现了更高的生成吞吐量和更快的生成速度

在 Agent 应用中,考虑到推理内容(用户可见,需匹配人类阅读速度约 20 tokens/s)和动作命令(用户不可见但直接影响工具调用启动时间,需要最高速度)的差异化需求,LongCat-Flash 的近 100 tokens/s 生成速度将单轮工具调用延迟控制在 1 秒以内,显著提升了 Agent 应用的交互性。在 H800 GPU 每小时 2 美元的成本假设下,这意味着每百万输出 token 的价格为 0.7 美元。

理论性能分析表明,LongCat-Flash 的延迟主要由三个组件决定:MLA、all-to-all dispatch/combine 以及 MoE。在 EP=128、每卡 batch=96、MTP 接受率≈80% 等假设下,LongCat-Flash 的理论极限 TPOT 为 16ms,相比 DeepSeek-V3 的 30ms 和 Qwen3-235B-A22B 的 26.2ms 有显著优势。在 H800 GPU 每小时 2 美元的成本假设下,LongCat-Flash 输出成本为每百万 token 0.09 美元,远低于 DeepSeek-V3 的 0.17 美元。不过,这些数值仅为理论极限。

在 LongCat-Flash 的免费体验页面,我们也测试了一下。

我们首先让这个大模型写一篇关于秋天的文章,1000 字左右。

我们刚提出要求,刚点开录屏,LongCat-Flash 就把答案写出来了,录屏都没来得及第一时间关。

细细观察你会发现,LongCat-Flash 的首个 token 输出速度特别快。以往使用其他对话模型的时候,经常会遇到转圈圈等待,非常考验用户耐心,就像你着急看微信,结果手机信号显示「收取中」一样。LongCat-Flash 改变了这一步的体验,基本感觉不到首个 token 的延迟。

后续的 token 生成速度也很快,远远超出人眼的阅读速度。

接下来,我们打开「联网搜索」,看看 LongCat-Flash 这项能力够不够快。我们让 LongCat-Flash 推荐望京附近好吃的餐厅。

测试下来可以明显感受到,LongCat-Flash 并不是思考半天才慢悠悠地开口,而是几乎立刻就能给出答案。联网搜索给人的感受也是「快」。不仅如此,它在快速输出的同时还能附带引用来源,让信息的可信度与可追溯性都有保障。

有条件下载模型的读者可以在自己本地跑一下,看看 LongCat-Flash 的速度是否同样惊艳。

当大模型走进实用时代

过去几年,每当出来一个大模型,大家都会关心:它的 benchmark 数据是多少?刷新了多少个榜单?是不是 SOTA?如今,情况已经发生了变化。在能力差不多的情况下,大家更关心:你这个模型用起来贵不贵?速度怎么样?在使用开源模型的企业和开发者中,这种情况尤其明显。因为很多用户用开源模型就是为了降低对闭源 API 的依赖和费用,所以对算力需求、推理速度、压缩量化效果更敏感。

美团开源的 LongCat-Flash 正是顺应这种趋势的代表作。他们把重点放在了怎么让大模型真正用得起、跑得快,这是一项技术普及的关键。

这种实用路线的选择和我们对美团一直以来的观感是一致的。过去,他们在技术上的绝大部分投入都用来解决真实业务痛点,比如 2022 年获 ICRA 最佳导航论文的 EDPLVO,其实就是为了解决无人机在配送途中遇到的各种意外情况(比如楼宇过密会失去信号);最近参与制订的全球无人机避障 ISO 标准,是无人机在飞行途中躲避风筝线、擦玻璃安全绳等案例的技术经验沉淀。而这次开源的 LongCat-Flash 其实是他们的 AI 编程类工具「NoCode」背后的模型,这个工具既服务于公司内部,也对外免费开放,就是希望大家能把 vibe coding 用起来,实现降本增效。

这种从性能竞赛向实用导向的转变,其实反映了 AI 行业发展的自然规律。当模型能力逐渐趋同时,工程效率和部署成本就成了关键差异化因素。LongCat-Flash 的开源只是这个趋势中的一个案例,但它确实为社区提供了一个可参考的技术路径:如何在保持模型质量的前提下,通过架构创新和系统优化来降低使用门槛。这对于那些预算有限但又希望用上先进 AI 能力的开发者和企业来说,无疑是有价值的。

机器之心Pro

机器之心Pro

全球人工智能信息服务

271 Articles 38185 Views 0 Fans

Comment (0)

睡觉动画