作为谷歌 AI Ultra 订阅的一部分,Gemini 2.5 Deep Think是一个旨在通过使用并行思维技术并延长推理时间来解决创造性问题的模型。
根据谷歌的说法,Deep Think 旨在更好地解决需要创造力、战略规划和逐步方法的问题。这些问题包括迭代开发和设计、科学和数学发现以及算法开发。
目前可用的模型是 Deep Think 模型的改进和优化版本,该模型在2025年国际数学奥林匹克竞赛(IMO)中获得了金牌。
Gemini Deep Think 的一个高级版本完美解决了六道 IMO 问题中的五道,总共获得了 35 分,达到了金牌水平。解决方案可以在网上找到。
谷歌解释道,这种变体可能需要数小时来推理复杂的问题,而新的版本则为了速度牺牲了一些推理深度,使其更适合日常使用。谷歌特别强调了他们自 2024 年 IMO 竞赛以来取得的进步,当时他们的 AlphaProof 和 AlphaGeometry 模型需要专家先将问题从自然语言翻译成特定领域的语言,并需要三天时间来产生解决方案。
谷歌解释说,Gemini Deep Think 会并行生成多个备选解决方案,并在整个推理过程中修订或组合它们,以得出最佳答案。为了使这种方法可行,该模型需要一个延长的推理时间窗口,这使得它不适合交互式使用,例如在聊天中。正如谷歌所指出的,模型可能会偶尔表现出缓慢或超时问题。
与 Gemini 家族中的其他模型的另一个关键区别是在训练期间使用新颖的强化学习技术,这鼓励模型利用这些延长的推理路径同时测试多个假设。最后但同样重要的是,模型还可以访问一个策划的高质量数学问题解决方案语料库。
谷歌表示,Gemini 2.5 Deep Think 在几个基准测试上实现了最先进的性能,包括 LiveCodeBench V6 和 Humanity"s Last Exam。

Reddit 上的早期采用者指出的一个限制是,即使是付费用户,可用的查询数量也受到了限制,最初是每天五次,后来增加到十次。一些评论者将此视为模型运行成本高昂的迹象,可能相当于同时启动大量 Gemini Pro 模型。
与其家族中的其他模型一样,Gemini Deep Think 遵循稀疏混合专家(MoE)架构,并原生支持文本、视觉和音频输入的原生多模态支持。它支持 100 万个 token 的输入上下文窗口和 192K 个 token 的输出窗口。
除了为 AI Ultra 订阅者提供的优化 Deep Think 模型外,谷歌还向研究社区发布了竞赛版本。
原文链接: