根据《金融时报》的报道,Oracle 公司将花费约400亿美元购买 Nvidia 最新的超级芯片,计划为 OpenAI 提供计算能力。这些超级芯片将部署在位于德克萨斯州阿比林的首个美国 “星门” 数据中心。不过,该数据中心能否提供足够的电力以满足如此庞大的计算需求,仍然存在疑问。
图源备注:图片由AI生成,图片授权服务商Midjourney
这笔巨额投资将用于购买约40万个 Nvidia GB200超级芯片。该芯片在 Nvidia 的 GTC 活动中首次发布,配备了一对强大的 Blackwell GPU 和自家的 Grace CPU。36个 GB200组成一个 NVL72系统,能够提供每秒1.4exaFLOPS 的稀疏 FP4计算能力。若按此计算,Oracle 将在1.2吉瓦的设施内部署约11,000个机架系统,整体计算能力将达到近16zettaFLOPs。
每个 NVL72机架的最大功耗为120千瓦,若考虑电力和冷却损耗,估算需要约1.45吉瓦的电力才能充分利用这些超级芯片的潜力。然而,该数据中心今年仅能提供约200兆瓦的电力,这足以支撑约1,500个 NVL72机架,约54,000个 GB200超级芯片。剩余的电力预计将在2026年前投入使用,Oracle 计划租用该场地15年。
尽管电力问题可能是一个挑战,但 Oracle 与数据中心运营商 Crusoe 仍可能找到解决方案。并非所有的机架系统都会在同一时间达到最大功耗。考虑到阿比林校园由八栋建筑组成,Oracle 不太可能将所有的超级芯片集中在一个训练集群中。我们预计,部分芯片将用于推理、合成数据生成、强化学习等其他工作负载,这些工作负载不太可能使系统达到极限。
如果 Oracle 和 Crusoe 能够克服电力限制,阿比林数据中心将成为美国最强大的 AI 超级计算机之一,其计算能力比埃隆・马斯克的 Colossus 超级计算机多出10至20倍。位于田纳西州的 Colossus 系统配备了近800exaFLOPS 的稀疏 FP8计算能力,目前仅有一个供电站完成,部分供电仍依赖于多台天然气涡轮机。
此外,OpenAI 的 “星门” 项目还将国际化,与 Oracle、Nvidia、Cisco 等公司合作,在阿联酋建立新的计算能力。该项目预计在2026年上线首个200兆瓦的电力阶段。
划重点:
🌟 Oracle 将投资400亿美元购买40万个 Nvidia GB200超级芯片,助力 OpenAI。
⚡ 阿比林数据中心可能面临电力不足的挑战,目前仅有200兆瓦的电力可用。
🌍 OpenAI 的 “星门” 项目正在国际扩展,计划在阿联酋建立更多计算能力。
发表评论 取消回复