IT之家 7 月 14 日消息,亚马逊 AWS 在发布于 6 月 24 日的一篇文章中介绍了其大型分布式集群 Project Rainier,该项目有望成为世界上最强大的 AI 模型训练计算机。
Project Rainier 分布在美国境内的多个不同数据中心中,基于 AWS 旗下 Annapurna Labs 芯片部门开发的 AI 芯片 Trainium2:每个服务器配备 16 颗 Trainium2,每 4 个服务器合为一个 UltraServer,数以万计的 UltraServer 互联构成 Project Rainier 这一 UltraCluster 超级集群。
在互联方面,蓝色电缆的 NeuronLinks 负责 Tn2 UltraServer 内部高速互联,而单一数据中心内部和跨数据中心互联则交由黄色电缆的 Elastic Fabric Adapter (EFA) 技术负责。
Anthropic 将使用 Project Rainier 构建和部署旗舰模型 Claude 的未来版本,Annapurna Labs 产品和客户工程总监 Gadi Hutt 表示, Project Rainier 可提供五倍于 Anthropic 目前最大训练集群的算力。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。