你、我,还有 AI,都一样……
苹果近日发布的一项人工智能研究表明,AI 的“推理能力”或许远没有我们想象中的那么强。
这篇论文是在苹果年度开发者大会(WWDC)前几天发表的。研究指出,大型推理模型(LRM)——例如 OpenAI 的 o1 与 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 以及 Google Gemini Flash Thinking ——在面对日益复杂的问题时,会出现“彻底崩溃”的现象。这项研究出自去年曾揭示大型语言模型(LLM)推理缺陷的同一批研究人员。
这个发现无疑给热衷于“通用人工智能”(AGI)的人泼了盆冷水,而对 AI 怀疑派来说则是振奋人心的好消息。研究显示,虽然被大肆宣传的 LRM 在中等难度谜题上的表现优于传统 LLM,但在简单题上的表现却更差;而当面对高难度问题时,它们则会“完全崩溃”,甚至在解题过程中提早“放弃”。
苹果研究人员用一句话总结了这些模型的真实表现:虽然它们在数学和编程任务中表现亮眼,但面对更复杂的挑战时,只呈现出“思考的假象”。
苹果在大模型开发方面起步较晚,设备中的 AI 功能也普遍被认为不够惊艳。如今这项研究或许可以解释,为什么苹果不像谷歌和三星那样急于在产品中全面导入 AI 功能。
苹果是如何测试“推理能力”的?
研究人员使用了一系列经典逻辑谜题来测试这些被称为“LRM”(大型推理模型)的 AI 系统,比如:
河内塔:将一组从大到小的圆盘从一个柱子移动到另一个柱子,规则是不能将较大的圆盘放在较小的上面。
跳棋问题:让棋子按规则跳跃至空格中。
过河难题:例如“狐狸、鸡和一袋粮食”不能单独留在一起。
方块堆叠问题:按指定顺序堆叠方块。
这些谜题通常用于测试人类的逻辑推理与问题解决能力。一旦掌握规律,难度虽提升,但逻辑是连续可循的。然而,研究发现:这些 LRM 模型在难度提升到一定程度后就会“失灵”。
研究写道:“所有推理模型在面对问题复杂度增加时,都表现出类似的趋势:准确率逐渐下降,最终在模型各自的临界点完全崩溃(准确率为 0)。” 例如,在河内塔问题中,当添加到第五个圆盘时,Claude 3.7 Sonnet + Thinking 与 DeepSeek R1 就开始频繁失败。即使提供更多算力,也无法解决高复杂度问题。
更令人意外的是,研究人员还发现,随着问题变难,模型一开始确实会投入更多“思考 token”(推理努力),但接近临界点时,反而会减少“思考”——即 token 使用量下降。换言之,问题越难,它们反而“更快放弃”。
即使研究人员直接在提示中提供了解题算法,模型只需“按步骤操作”,结果依然无改善。
但这是否意味着 AI 无法推理?
也不必过于悲观。苹果的研究并不意味着这些模型完全没有推理能力,而是指出它们目前并不比人类聪明太多。AI 专家 Gary Marcus 在博客中指出:“(普通)人类其实也在类似的任务中表现不佳。例如,许多人在解决包含 8 个圆盘的河内塔问题时也会出错。” 他还指出,研究并未将这些 AI 模型的表现与人类做直接对比。
本质上,大型语言模型在编程、写作等任务中确实有价值,但也存在弱点。Marcus 总结说:“无论你如何定义 AGI,苹果这项研究的根本结论是——LLM 不能代替良好定义的传统算法。”
因此,我们应将这项研究视为一项重要的参考数据,与其他 LLM 研究结合来看。每次 AI 研究有新发现,社会舆论很容易陷入极端化:不是彻底看衰 AI,就是过度兴奋地庆祝“突破”。但现实往往处在这两个极端之间——既不惊天动地,也不一无是处。
(举报)