AI热点 3小时前 196 浏览次数 0 评论

预训练到头了,DeepSeek R2值得期待吗?

AI中国
AI中国

发布了 9068 文章

「预训练时代已经结束」,大牛在2024年年底的演讲依旧余音绕梁。

一手将深度学习和 OpenAI 带到前所未有历史性高度的 Ilya Sutskever,曾罕见推荐并在个人社交媒体转发了MIT团队论文《The Platonic Representation Hypothesis》,这篇文章精准预测了当下发生的一切:

​“事实上,大语言模型可以看做是一个多任务目标训练的过程。根据上下文预测下一个Token看似简单,但实则是一个包罗万象的任务集合。”

“多任务目标的训练向模型施加了更多约束,从而导向更紧致、更高质量的解决方案空间。”

“模型越大,便越容易逼近全局最优表征,从而推动表征收敛。”

“虽然Scaling up能够实现表征收敛,但是不同方法的收敛效率可能天差地别。”

“有不少优秀的CV模型都是从预训练大语言模型上微调而来的。跨模态配对数据的主要价值在于提升表征收敛的效率。

“因为不同模态的数据背后,隐含着某种与模态无关的通用现实表征。”

寥寥几句道出了大语言模型的魔法之源和天生局限:语言因Scaling Up实现了更好的收敛,逼近对真实世界的高效拟合。但语言终究只是现实世界的单一映射,而不是现实世界的直接构建和感知。

人脑若以“生物计算机”视角观察,可以粗略概括为:它以多模态、某种统一表征进行极为高效的信息压缩,实现对现实世界建模和预测。

LLM则是“通过语言单一模态对现实世界建模和预测”,将固定划分的词或句转化为向量,在超高维向量空间进行模式匹配。这种数学上依靠高维向量为“中介”进行统计拟合的技巧,LeCun戏称为「随机鹦鹉」,LeCun包括一大批研究者都觉得这不是真正意义上的语义理解。

LLM预测下一个Token的方式工作与人脑有没有本质区别,现阶段无法证伪。LLM 没有常识,推理能力也有很大争议,却能极其精准地进行答案拟合。在数据、参数量、算力不断Scaling之下,涌现出了惊人的能力,也迈过了人类社会大规模实用的门槛。

但LLM数据和参数量既不能无限膨胀,最终效果也不能无限延伸地边际递增。「预训练时代已经结束」,换个说法,就是有用的人类数据已经被消耗殆尽。

强化学习之父Richard Sutton在那篇著名的《苦涩的教训》中总结,简单算法、发现通用规则、规模化且高度可执行的计算,总会带来出人意料的效果,往往也能导向重大突破。当下足够深入理解大语言模型“底层”的研究者,应该都能认同:多模态统一表征的抽象、高度压缩和处理才是真正的困难所在。

语言作为离散信号,容易被压缩的表征,低垂的果实几乎已经摘完。Open AI迟早要跟随李飞飞、LeCun、何恺明直面三维空间难以符号化的连续视觉信息——视觉信号有大量“噪声”,类似LLM抽象出统一表征的有效方法还是空白,处理难度远超可以高度压缩的语言。

学术界和产业界继大语言模型之后,正寻求的下一个突破——基于多模态信息抽象出统一表征,进行高效压缩、处理、建模,生成的图像和视频流与真实三维空间保持一致,能完全遵循物理规律的「世界模型」。

耗尽心力的浅层优化,可能远远不及本质上即使“那么一丁点的突破”,R1突破强化学习后训练的轰动很难复刻。在此大胆预测:

更好的数据清洗、数据配比,

更高质量和数量的数据输入,

更大的参数量和训练算力,

或者即使有更创新的模型架构出来,对Transformer的深度改进甚至颠覆,亦或者在CoT和“后训练”的强化学习算法上有可喜进展...

但若还是停留在语言信息的符号化压缩范畴,DeepSeek R2 大概率跟GPT-5一样,都只是锦上添花的续貂之作,被吊足了胃口的资本和产业界,唯有失望可言。

OpenAI的苦恼在如何继续变戏法,将故事讲下去。DeepSeek则还要面对另一个问题,如果用落后1-2代的AI训练芯片,未来若被迫切换到一个全新算力平台,几乎从零开始的工具链、编译器和优化算法库。那困难更是几何级增长。

外媒消息,DeepSeek在尝试使用华为昇腾芯片集群替换其之前依赖的英伟达(Nvidia)GPU进行R2模型的核心训练工作时,遭遇了“持续的技术问题”,导致发布计划被迫推迟。

这并非空穴来风。

在深入研究了华为CloudMatrix 384超节点AI算力集群方案,CloudMatrix 384对标英伟达GB200 NVL72方案,以384颗芯片对74颗,五倍数量的昇腾芯片来弥补每颗 GPU 仅相当于英伟达 Blackwell 芯片三分之一性能的差距。

100% 光互连、0% 铜缆、每颗芯片 14 个光收发器,如此超前豪华的光互连用料,scale-up 解决方案可说领先英伟达和 AMD 当前市售产品一整代。但昇腾 910C 却被发现只是两颗昇腾 910B“超乎常理的低速CoWoS封装”,CoW 这一道影响双die互联带宽的关键工序和材料不知道用的啥。

来自国外某个博客文章高度可靠的分析,与英伟达在 GB100/200 系列中采用的先进封装不同,昇腾910C 很可能采用了技术上较简单的方法:两个独立的硅中介层通过有机基板连接。这可能导致芯片间带宽比英伟达的解决方案低 10–20 倍。如果带宽确实如此之低,那它实际上就不能算一颗芯片。

昇腾910C 在 FP16 精度下可实现约 800 TFLOP/s 的算力,内存带宽约 3.2 TB/s。这仅相当于英伟达上一代 H100(2022 年发布)的约 80%,同时逻辑芯片面积多出 60%。

以“一切可池化”“一切皆对等”“一切可组合”的创新设计,从算力规模、扩展模式和使用模式上,匹配超大规模算力诉求。另一面,却是更多的电力消耗、更高的发热、更不可预测的通信问题和可靠性,以及三倍于GB200 NVL72的整机系统售价。这还没算CUDA几乎无法追赶的生态优势和编译层面AI算力真实利用率领先所有人的现实。

DeepSeek值得尊敬,但是最好降低预期。

本文来自微信公众号“X研究媛”,作者:JeffHill,36氪经授权发布。

AI中国

AI中国

9068 文章 1489626 浏览次数 950300 粉丝

评论 (0)

睡觉动画