AI热点 14小时前 122 浏览次数 0 评论

华为超节点:用「一台机器」的逻辑,驱动AI万卡集群

机器之心Pro

全球人工智能信息服务 发布了 335 文章


机器之心报道

机器之心编辑部

超节点架构重新定义大规模有效算力新范式。

AI 算力正在迎来全新形态,革新的原点来自国内。

在算力需求呈指数级增长的今天,AI 基础设施的规模竞赛似乎陷入了一个怪圈:随着集群规模扩大,传统通过「服务器堆叠和以太网联接」的模式,会因服务器间带宽不足、时延大等问题,导致有效算力利用率反而越低,训练中断也愈发频繁。

在昨天的华为全联接大会 2025 上,华为给出了自己的解法:基于自研的灵衢(UnifiedBus)互联协议,创新了超节点架构。

这并非又一个单纯的硬件升级,而是华为在计算系统架构层的一次深度重构。

要实现超节点架构,最难、也最关键的是突破互联瓶颈。

在传统服务器架构中,我们可以将其理解为一个由无数独立「计算岛屿」(服务器)组成的群岛,岛屿之间依靠传统的网络「航线」(如以太网 / IB 网络)进行数据交换。

在集群规模较小时,这种模式尚能应付;但当成千上万个计算单元需要为同一个庞大的训练任务进行高频、海量的数据同步时,这些「航线」就会迅速拥堵。

其结果是,大量的计算单元不是在计算,而是在「等待」数据。节点间的通信延迟和带宽限制成为了整个集群的木桶短板,导致「1+1

更致命的是,任何一个节点的故障都可能引发连锁反应,导致动辄耗时数周的训练任务中断,造成巨大的资源浪费。可以说,互联架构的能力,直接决定了 AI 集群规模的天花板。

华为希望以超节点创新的形式,改变传统集群「堆叠」模式,解决当前大规模 AI 计算最核心的痛点:通信墙。

互联技术的研发难度极大,正如业界关注的 NVL144 的上市时间已推迟到明年下半年,而华为的独特之处在于,基于灵衢互联,已经成功实现了超大规模的超节点部署,验证了该技术路线的成熟与领先。

从「堆叠」到「融合」,深度互联推动 AI Scaling Up

「超节点」架构的核心思想,在于「融合」。超节点在物理上由多台机器组成,但逻辑和使用上可以看做是单一设备。它通过大带宽、低时延的互联网络,将计算单元、存储单元等组件平等互联,并统一通信协议与内存编址,实现全局资源池化,从根本上解决了传统集群的通信墙问题。

基于这样的架构,能够将通信时延降低到百纳秒级,大幅提升集群利用率,降低通信成本。其最终目标是让有效算力随集群规模实现真正的线性拓展,并大幅提升系统的长效可靠性。

华为董事、ICT BG CEO 杨超斌在昨天的华为全联接大会上表示:「基于灵衢互联协议,华为创新了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理,重新定义了高效、稳定、可扩展的大规模有效算力新范式。」

华为董事、ICT BG CEO 杨超斌在华为全联接大会上。

覆盖全场景的创新产品组合

随着 AI 基础建设的快速演进,超节点或许会很快成为 AI 基础设施的新常态。

而超节点不仅仅应用于 AI 数据中心,更需要普惠千行万业的 AI 计算需求。为此,基于超节点架构,华为打造出满足大型数据中心、企业级数据中心到小型工作站等全场景算力需求的创新产品。

  • 旗舰标杆:Atlas 950 SuperPoD

本次大会,华为发布 Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先。

这是给顶级玩家(如云服务商、国家级智算中心)准备的「旗舰武器」,其采用的全液冷和零线缆电互联的正交架构设计,结合液冷接头浮动盲插等技术,不仅解决了超高密度下的散热和互联难题,更通过系统性创新解决了跨柜长距离、高可靠部署这一业界难题,更极大地提升了系统的长期运行可靠性和机房部署适应性

其 FP8 算力达到 8E FLOPS,总互联带宽高达 16PB/s,超过今天全球互联网峰值带宽的 10 倍有余。

其创新的「UB-Mesh」递归直连拓扑,最大可支持 8192 卡无收敛全互联,这意味着在理论上,集群内的任意两个 NPU 都能实现最高效的通信,为万亿参数级别模型的训练扫清了障碍。

基于超节点,华为同时发布了全球最强超节点集群 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别为超过 50 万卡和百万卡,成为了全球最强算力集群之一。

华为副董事长、轮值董事长徐直军在大会演讲中强调,基于中国可获得的芯片制造工艺,华为努力打造「超节点+集群」算力解决方案,可以满足持续增长的算力需求。

  • 企业普惠:Atlas 850

这或许是本次发布中最具市场穿透力的产品。作为业界首个企业级风冷 AI 超节点服务器,它首次将超节点架构带入企业级风冷数据中心,极大地降低了企业部署超节点架构的门槛。

这意味着,大多数企业无需对现有数据中心进行复杂的液冷改造,在大多数单柜供电能力为 20 千瓦以内的标准风冷机房内,也能构建起最大 1024 卡的超节点集群,这对于推动大模型在更广泛行业的「后训练」和多场景推理应用意义重大。

杨超斌发布 Atlas 850 企业级风冷服务器。

  • 基础计算单元:Atlas 350 标卡

基于最新的昇腾 950PR 芯片,这款标卡不仅自身性能大幅提升(如推荐推理场景性能提升 2.5 倍),更关键的是,它通过灵衢端口实现了多卡互联与资源池化。

这意味着,即便是单个服务器内的多张标卡,也能「攒」出一个小型的超节点,让更大参数的模型和更低时延的应用得以在更小的单位上运行。同时,灵活扩展、可拆可合的特性,也让用户能够根据自己的需求,灵活组装。

  • 通用计算场景:TaiShan 950 SuperPoD

这是华为超节点战略的延伸,也是一个值得关注的信号,华为将这一架构首次应用于通用计算领域,推出了业界首款通算超节点。

百纳秒级超低时延和内存池化能力,将直接利好数据库、虚拟化和大数据等对延迟极其敏感的场景,为传统 IT 架构的性能提升开辟了新的想象空间。

值得一提的是,基于 TaiShan 950 超节点打造的 GaussDB 多写架构,无需改造即可平滑替代大型机、小型机上的传统数据库,为传统 IT 架构的性能提升开辟了新的想象空间。

以「开源开放」构建护城河

在发布一系列「肌肉感」十足的硬件产品之余,华为反复强调的是「硬件开放、软件开源」的生态战略。

在 AI 时代,单一厂商的技术再强,也无法包揽所有场景的应用创新。真正的壁垒,在于生态的繁荣度。

硬件开放:华为将 NPU 模组、刀片、主板等基础硬件向伙伴开放,鼓励产业界进行二次开发,共同丰富基于灵衢协议的产品形态,为不同场景提供适配的算力底座。

软件开源:将昇腾 CANN 和操作系统灵衢组件全面开源,代码将陆续合入 openEuler 等开源社区,并确保对 PyTorch、vLLM 等主流框架的优先支持。通过强化开源运作,华为致力于使能广大开发者和合作伙伴,让超节点走向普惠和协同创新,共建繁荣的 AI 生态。

昨天的大会上,华为除了发布全球最强超节点,公布全新昇腾 950 芯片架构之外,还介绍了自研算力体系的落地情况:基于灵衢的 Atlas 900 A3 超节点当前已经累计部署了 300 多套,服务 20 余个客户,行业覆盖互联网、金融、运营商、电力、制造等。新一代超节点已在客户真实场景中兑现了价值。

算力的未来,在于打破边界。「超节点」架构的核心使命,就是构建一个统一、可扩展的算力基石,旨在将一致的、高性能的计算体验,无缝贯穿到每一个数据中心、企业和工作站。

机器之心Pro

机器之心Pro

全球人工智能信息服务

335 文章 49383 浏览次数 0 粉丝

评论 (0)

睡觉动画