“搬起自己的 GPT 石头砸了自己的脚。”这是 Meta 首席 AI 科学家 Yann LeCun 对 OpenAI 研究员们的最新评价。
事件起因是,此前这些研究员因 GPT-5 的一项新数学“突破”而高调庆祝,但在受到整个 AI 社区质疑后又迅速撤回了该说法。连谷歌 DeepMind 首席执行官 Demis Hassabis 也对此提出批评,称其沟通存在疏漏。
GPT-5“突破”被证明是一个错误
取得“突破”的消息,最早是由前微软副总裁、现 OpenAI 研究科学家 Sebastien Bubeck 放出。他在 X 上称,两位研究人员在周末借助 GPT-5 找到了 10 个埃尔德什问题(Erdős problems)的答案。埃尔德什问题是匈牙利数学家 Paul Erdős 提出的一系列数学问题的统称,其中既包含未解决的难题,也有已解决的问题,著名案例包括 “不同距离问题”(Distinct Distances Problem)与 “偏差问题”(Discrepancy Problem)。这类问题以难度高著称,常成为学界深入研究的对象,部分问题甚至设有现金奖励,鼓励研究者攻克。
10 月 18 日,OpenAI 研究员 Mark Sellke 正式宣布,经过数千次 GPT-5 的查询,其发现了 10 个原本还处于“未解状态”的埃尔德什问题的答案。此外,还有 11 个难题取得了重要的部分进展,并更新到了官网上。甚至在一道题上,他们还发现 Erdős 本人的原始论文里存在错误,这个错误由 Martínez 和 Roldán-Pensado 两位学者后来进行了修正。
随即,OpenAI 的其他研究员也纷纷宣传起这一消息。OpenAI 副总裁 Kevin Weil 转发了 Sellke 的帖子并确认了情况,“GPT-5 解决了 10 个(!)此前未解决的埃尔德什问题(Erdős problems),并在另外 11 个问题上取得了进展。”
然而目前,这几位 OpenAI 研究员都已删除了以上帖子。
他们的表述听起来像是,GPT-5 独立地为复杂的数论问题生成了数学证明,这不仅可能是一项重大科学突破,还意味着生成式 AI 有望发现未知解决方案,展现出推动创新性研究、为重大进展铺路的能力。但事情却并非如此,说法很快就被推翻了。
负责维护埃尔德什问题网站的数学家 Thomas Bloom 出来发声,称以上帖子 “存在严重失实”。他表示,“GPT-5 只是找到了一些能解决这些问题的参考文献,而这些文献是我个人之前未曾知晓的。网站上标注的 ‘未解决’(open)状态,仅代表我个人尚未了解有能解决该问题的论文。”
即便在 OpenAI 内部,说法也发生了转变。先前高调宣传 GPT-5 成就的 Bubeck 承认,“(GPT-5)只找到了文献中已有的解决方案”。但他认为,这仍算一项切实的成就,“我清楚检索文献的难度有多大。”Hassabis 对此评价道,“这太尴尬了。”
误导性声明带来“反噬 ”
最初的相关推文已基本删除,涉事研究员也承认了错误。
尽管如此,这起事件仍让外界进一步认为,OpenAI 是一家承受着巨大压力、且行事风格较轻率的机构。人们不禁质疑:为何顶尖 AI 研究员会在未核实事实的情况下,就发布如此耸动的言论?尤其是在这个本就充斥着炒作、且涉及数十亿美元利益的领域。
据外媒报道,在社交平台上,“OpenAIFail”等话题标签热度攀升,短短几天内就有超过 1 万条推文表达了对 OpenAI 数学领域所谓 “成就” 的失望与质疑。并且,此事一出,OpenAI 与股票挂钩的估值指标在盘前交易中大幅下跌。
监管机构也正在加强审查。据外媒报道,美国联邦贸易委员会(FTC)已开始调查 OpenAI 的行为是否构成虚假广告行为,可能面临罚款或其他处罚。与此同时,立法者呼吁在人工智能研究中提高透明度,参议员 Maria Cantwell 表示,“我们需要确保人工智能的进步不会被夸大给公众,因为这会削弱公众对这项技术和其应用的信任。”
另外,美国监管机构在发现 OpenAI 通过未公开的与 Epoch AI 的资金关系获得了对 FrontierMath 基准测试的内部优先访问权后,正加强对 OpenAI 的审查,引发了关于公平竞争和基准测试透明度的担忧。Epoch AI 的一位助理总监确认 OpenAI 可以访问大部分基准测试数据,但除了一个“保留”数据集外,并强调只有“口头协议”阻止了其用于训练,这为潜在的操纵留下了可能。此前,在达沃斯论坛上,著名的通用人工智能(AGI)怀疑论者 Gary Marcus 称 OpenAI 的公开演示“具有操纵性”。
AI 推动数学领域的 “实力”,陶哲轩在认可
由于误导性的宣传,此事背后真正有价值的信息似乎被掩盖了:事实上,GPT-5 在追踪相关学术论文的研究工具层面,展现出了实用价值。对于那些文献分布零散、或术语表述不统一的研究问题而言,这种能力尤为重要。
著名数学家、加州大学洛杉矶分校数学教授陶哲轩(Terence Tao)多次在公开场合表示,AI 助手可以改变数学研究。
10 月 17 日,他在一条帖子中强调,AI 在数学领域最富有成效的应用,并非是将最强大的模型用于攻克最具挑战性的难题,而是借助中等算力的工具,去加速和规模化处理那些更普通、更耗时却依然关键的研究任务。这一过程中,需依托人类在这类任务上积累的经验与理解,来指导、验证人工智能的输出,并将其安全整合到研究流程中。陶哲轩表示,尽管 AI 在解决棘手问题方面有过一些 “零散的进展案例”,但是在投入大量计算资源和专家精力的情况下。
而这类常规任务的一个典型例子就是文献综述:为特定问题查找相关的既往文献。若某个问题已有公认的名称,且存在成熟的研究社群专门致力于该问题,那么现有的网络搜索和文献检索工具已足以找到该问题的过往及最新文献。具体而言,这些文献之间的引文网络密度较高,研究者只需从该领域的一篇核心论文入手,通过正向和反向引文检索,就能对该问题的当前研究现状形成相对完整的认知。
并且,陶哲轩也在帖子中提及了用 AI 找出解决埃尔德什问题的相关文献的例子。此外,他还进一步指出了应用 AI 来做文献综述的多方面好处:
文献检索工具的输出结果可由人类独立验证,这一特性使其成为 AI 的合适应用场景(前提是使用者具备足够专业能力来完成验证)。尤其是在需要依次检索多个问题、而非仅聚焦单个问题时,这一优势更为明显。在这类场景中,人工智能输出结果的成功率无需达到 100%;只需满足:在投入同等时间和精力的前提下,相比传统非 AI 驱动的检索方式,它能带来更多有用结果(同时减少无用结果)即可。此外,学习如何正确使用 AI 工具的初始时间投入,可通过多次使用分摊成本。因此,当需要规模化应用检索功能时,这种 AI 工具的使用方式会格外具有吸引力。
若由人类进行文献综述,最终未找到相关文献时,这类结果往往不会被明确记录(尽管文献中有时会出现 “据我们所知,这是该问题的首个已知研究进展” 这类表述)。这背后或许存在一种顾虑:若后续有人发现了一篇此前综述中被遗漏的相关论文,参与综述的研究者可能会因此感到尴尬。这种情况可能引发两种问题:一方面,若多次检索同一问题却未发现相关文献的失败结果从未被报告,多位研究者可能会重复投入精力,徒劳地搜索不存在的文献;另一方面,人们可能会错误地认为某个问题仍未解决,但实际上此前从未有人开展过严谨的文献综述,而该问题的解决方案早已存在于现有文献中。
但当我们利用 AI 驱动的文献综述工具,对大量问题系统性地开展检索时,同时报告 “阳性结果”(找到相关文献)和 “阴性结果” 会变得更加自然。例如可以这样表述:“在该工具检索的 36 个问题中,24 个(占比 66%)返回了经我们判定为相关的新增结果,12 个(占比 33%)仅返回了我们已掌握的文献或无关文献。” 这种做法有助于更准确地呈现某一问题的现有文献实际情况。
此前,他还曾提到,生成式 AI 有望推动数学研究 “工业化”,加速该领域的发展进程。不过他也强调,在审查、分类 AI 生成的结果,并将其安全整合到实际研究中时,人类的专业判断仍是关键。
参考链接:
https://the-decoder.com/leading-openai-researcher-announced-a-gpt-5-math-breakthrough-that-never-happened/
https://mathstodon.xyz/@tao/115385022005130505
本文来自微信公众号“AI前线”,作者:华卫 ,36氪经授权发布。