AI热点 4小时前 97 浏览次数 0 评论

6000字复盘:Google AI变猛记——从 Nano Banna、Genie 3、Veo 3到Gemini 2.5的绝地反击

AI中国
AI中国

发布了 9718 文章

「AI Google 时间」开始了



一年前,Google 在 AI 赛道上还是「追赶者」的形象。ChatGPT 席卷硅谷时,它显得迟缓。


但短短几个月后,情况突变。


Gemini 2.5 Pro 横扫各大榜单,「香蕉」模型 Nano Banana 让生图、修图成了轻松事;视频模型 Veo 3 展示了物理世界的理解力;Genie 3 甚至能一句话生成一个虚拟世界。


Google 用一串「王炸」产品,重新站回牌桌中央。


这不禁让人好奇:


Google 最近怎么突然这么猛了?


这其实并非一次突然的爆发,而是一场「大象转身,技术变现」,Google 正以前所未有的决心和效率,将自己数十年积累的 AI 技术储备,转化为产品力。


更直白点说:Google 不是突然变强了,而是那个开创了 Transformer 模型架构时代的巨头,正在小跑归来。


接下来,本文将深入盘点 Google 在 AI 领域的进展,并分析为何 Google 最近会在 AI 赛道上「突然这么猛了」。


全文将围绕以下 4 个核心板块展开:


【1】屠榜、夺金、重回王座的 Gemini 2.5 Pro


【2】左手「香蕉」生图,右手 Veo 3 导演


【3】世界模型 Genie 3


【4】大象转身,技术变现


屠榜、夺金、重回王座的 Gemini 2.5 Pro


我们先来看看基础大语言模型,对于大多数人来说,这一波 Google 突然变这么猛的「体感起点」,是 Gemini 2.5 Pro 系列的推出。


2022 年冬季,OpenAI 的实验性 ChatBot 以日均百万用户的增速掀起风暴,尽管频繁闹出事实性错误和简单计算失误,但其潜力开始「震撼」整个硅谷,也让 Google 首次感受到了「后院起火」的压力。


在那之后的一年多时间里,Google 的姿态更像是一个略显笨拙的「追赶者」。从仓促应战的 Bard 到 Gemini 1.0 的初步尝试,尽管一直在搞,但也一直被质疑。


比如说,当时外界的叙事是这样的:


从「Google 会如何应战?」变成了「Google 还行不行?」。


直到一个关键节点到来 —— Gemini 2.5 Pro 的正式推出,虽然之前推出的 Gemini 2.0 已经足够强大,但还没有逆转用户心智。


到了现在这个节点,Google 才可以真正意义上说「找到了曾经那个,曾经定义了互联网时代的技术巨头,该有的地位」。


1)屠榜


6 个月前,2025 年 3 月,在第三方权威模型评测平台 LMSys Chatbot Arena 上,代号为「nebula」的 Gemini 2.5 Pro 横空出世,强势登顶,其 Elo 评分一度超越了包括 GPT-4o 和 Claude 3 Opus 在内的所有对手。


实现了真正意义上的屠榜。



这一表现被各路媒体广泛解读为 Google 在模型综合实力上已经赶上甚至反超了竞争对手。


根据 LMSys 团队的说法,这是「史上首次有模型同时制霸文本、视觉和 Web 开发三大榜单」,斩获了名副其实的「三连冠」。


值得注意的是,LMSys 团队的 「Web 开发」模拟的是真实开发任务,并不仅仅限于 Coding 能力,而是构建交互式网页应用,涵盖前端(UI)、功能交互、依赖管理和完整应用结构。


在编程能力上,虽然从实用角度来看,「全面碾压」的说法有待商榷,但多个基准测试和开发者反馈显示,Gemini 2.5 Pro 在代码生成、理解和调试等方面的能力已与业界顶尖的 Claude 3.7 不相上下,甚至在某些特定任务(如 LeetCode 风格的问题)上表现更为出色。


而且,在之后的每一次或大或小的发布会上,Gemini 系列都是全面升级、再升级。


至此,所有的疑虑都烟消云散。


Google 在大语言模型上的最关键核心能力上,已经重返第一梯队。


2)夺金


除了 BenchMark 刷榜之外,AI 圈子其实非常在意一个基础大模型,在一些广泛接受社会关注的地方,能获得什么样的成绩。


简单说就是,Gemini 在更具挑战性的专业领域表现如何?


这里,值得说道的就是国际数学奥林匹克竞赛 (IMO),一个时常被 AI 厂商拿出来搞「震惊体」的竞赛。


一个经过特殊训练、具备「深度思考(Deep Think)」能力的 Gemini 模型在 2025 年的国际数学奥林匹克竞赛(IMO)中达到了金牌水平。Gemini 2.5 Deep Think 在 IMO 2025 中以满分 42 分中的 35 分的成绩,斩获金牌,解出 6 题中的 5 题,直接超越 Grok 4 和 OpenAI o3 等对手。


与此同时,OpenAI 在正式发布 GPT-5 前,同样利用了最新的实验性内部推理模型在 IMO 中斩获金牌,而 Gemini 获得了与该模型一致的分数。


这项成果展示了 Google AI 在复杂的、需要深度逻辑推理的任务上的潜力。


30 天前,这款 IMO 金牌模型上线 Gemini ChatBot,其实际表现被认为还要超过当时在 IMO 做竞赛时的水准。


比利时数学家 Michel van Garrel 甚至用它在线演示如何使用深度思考能力证明猜想。



总的来看,基础模型评测的高分,直观地向开发者和技术社区展现了模型的强大实力。而 IMO 这类竞赛的成功,则代表了 AI ,尤其是 Google 的AI 在前沿推理领域的重大进步。


因此,Gemini 2.5 Pro 系列的发布,可以看作是 Google 在这场 AI 竞赛中的一个明确转折点。



现在的 Gemini 不仅是个最好的 To C 产品之一,还是个能够挑战前沿的技术项目。


Google 开始向社区和市场宣告:他们不再是追赶者,其基础模型开始正式领跑业界了。


左手「香蕉」生图,右手 Veo 3 导演


如果说在纯文本大模型上,Google 是「迎头追上」,那么在多模态(Multimodality)领域,Google 则凭借其深厚的技术积累,展现出了「几乎绝对领先」的态势。


虽然 Gemini 模型从一开始就被设计为原生多模态,能够无缝地理解和处理文本、代码、图像、音频和视频。但是,除了 Gemini 之外,Google 还拥有一系列强大的专用多模态模型。


我们先来看图像(Image)领域的进展。


1)属于一根香蕉的故事


在视觉推理上,Google 从 Gemini 1.5 Pro 开始就没暂停过研究,到了 Gemini 2.5 Pro 时,其视觉推理能力就已经表现出极佳的水平。


而这一点非常明显地融入进了 Google 的 Image 模型之中。


同样是 6 个月前,2025 年 3 月,Google 在开源口碑极佳的 Gemma 3 模型之后,转眼间就整出了一个 Gemini 2.0 「用嘴改图」—— Gemini 2.0 Flash Experimental,全网爆火。


这主要是因为大家发现它能听得懂自然语言输入,并有着强大的修改可控制性。


「十字路口」团队也第一时间全面测评了这个功能:《Google杀回来了!Gemini 2.0 图像编辑实测:说人话就能干掉美图秀秀?》



这个功能在当时很火爆,大量的内外网测评博主挖掘其潜力,也正是因为聚集了各路网友在各个领域的各种使用创新,Gemini 2.0 已经成了当时最酷的潮玩之一。


有趣的是,就在此功能发布前不久,Google 推出的专有图像生成大模型 Imagen 4 在业界并未激起预想中的巨大波澜。许多人因此以为,那次「用嘴改图」功能的更新,只是一次巧妙但规模不大的产品优化。


然而, Google 在 Image 领域的强势突击,没有放弃,反而加快了。


Gemini 2.5 Flash Image(Nano Banana)


这场预想中的「冲锋」并没有让人等待太久。


就在 1 周前,全球各大 AI 大模型竞技场上,一个代号为 「Nano Banana」的神秘图像模型出现了,它在各项生成和编辑任务中表现出的水准,迅速引发了各个社区的热议和猜测。


当时,一个主流的观点便是:


这难不成又是 Google 的模型吧?


之所以有这样的猜测,是因为它的表现几乎「吊打」了市面上绝大多数同类产品。社区普遍相信,只有在多模态领域拥有如此深厚积累的 Google,才有可能拿出这样的「怪物级」作品。


最终,谜底揭晓,「Nano Banana」正是 Gemini 2.5 Flash Image。


它展现了对「物体替换」的准确理解,不再只是「能画出来」,而是能理解图像中的关系,并在保持逻辑一致的前提下完成修改,完成了图像和编辑能力的巨大质量提升。


当然,「十字路口」团队也第一时间出了一期全面测评:《Nano Banana 炸场!我们第一时间熬夜整理出 14 种邪修玩法》。


像是一个非常流行的案例:用 Nano Banana 模型,将 13 张输入图片,融合成一张完整、风格一致的图像:



除了图像编辑能力之外,它展示了极佳的地点推理能力:



总而言之,Gemini 2.5 Flash Image 的出现,意味着:当其他厂商还在琢磨生成一张好看的图片时,Google 已经开始让 AI 理解并重构真实视觉世界了。


这么说,并不夸张,因为 Google 视频生成模型 Veo 3 的能力印证了这一说法。


2)Veo 3


Text、Image 之外,Video 模态领域里,Google 同样「太可圈可点」了。


在动态的 AI 视频生成上,Google 用 Veo 3 补上了其多模态拼图的最后一块,也是最重要的一块拼图。


在 Veo 3 问世之前,市面上的所有视频生成模型(包括 OpenAI 的 Sora 和 Google 早期的 Veo 版本、Runway 的 Gen-3、LUMA 的 DreamMachine)尽管效果惊艳,但普遍受限于 3 个瓶颈:时长过短、逻辑一致性差、可控性弱。


它们生成的更像是高质量的「动态图片」片段,而非真正意义上的「影视叙事」。


然而,在 2025 年 5 月,Google 在 I/O 大会上正式发布了 Veo 3,改变了游戏规则。


其最大的技术创新,是实现了高保真的视频与音频同步生成,包括对话、音效与环境声音,甚至被认为标志着 AI 视频生成正式「走出无声电影时代」。


当时的一段 Veo 3 逼真脱口秀,爆火全网,让我们印象深刻:



时至今日,尽管距发布已过去了几个月,Veo 3 在长视频生成、逻辑连贯性和音画同步方面,依然在行业内难逢对手。


《好莱坞报道》甚至撰文称:


Veo 3 的出现,标志着 AI 视频生成技术已经从一个昂贵的「玩具」,演变成了一个可以被纳入专业生产流程的工具。


现在,广告公司开始利用它快速生成创意脚本的可视化样片,独立电影制作人则用它来创作传统拍摄无法实现的奇幻视觉特效。


一年的追赶,就已经让 Google 在多模态方向与 OpenAI 等顶尖 AI 基础模型厂商,齐头并进,甚至超越了它们。


就在一周前,知名风投机构 a16z 出了一份最新报告,是关于百大生成式 AI 消费应用排行榜的。在这份榜单里,我们看到无论是在网页端还是移动端,Gemini 的用户活跃度均已升至第二,仅次于 ChatGPT:



Google 在多模态领域的「领先」,不仅体现在单一模型的某个指标上,更体现在其将前沿技术迅速产品化、并创造出颠覆性用户体验的综合能力。


回顾过去 6 个月,用户们正一次一次地通过 Google 的 AI 基础模型感受到 「Aha Moments」,这本身就是最好的传播放大器。


世界模型 Genie 3


如果说 Gemini 是 Google 在语言和多模态理解上的深耕,那么 Genie 3 则展现了其在生成式 AI 和模拟现实方面的「对未来的投资」。这是一种纯粹的、面向未来的投资。


这也是所有关注 AI 和科技的人们,对大厂应有的期许:


这才是科技大厂该干的事,而 Google,更该如此。


Google DeepMind 推出的「通用世界模型」(General Purpose World Model) Genie 3 正是这一期许的产物。


它能通过一个文本提示词生成可探索、可操控的 3D 虚拟世界,支持 720p 分辨率、24 FPS 实时渲染,并维持数分钟的一致性与互动体验。


其甚至被中外媒体称为:有史以来最先进的世界模拟器。



用户可以在这个动态生成的世界里实时移动和互动,体验长达数分钟且保持一致性的虚拟环境。


这项技术的革命性在于,它为训练更通用的 AI Agent 打开了无限可能。


传统的 AI 训练需要大量预先构建好的环境,而 Genie 3 能够「凭空」创造出无穷无尽、风格各异的训练场。



这种能力,将彻底改变游戏开发、影视制作的流程。更重要的是,它为实现能够理解并适应复杂物理世界的通用 AI 打好了基础。


比如,我们曾在《AI 能让造车新势力的「血战现场」出现转机吗?一文中所分析的,通用世界模型也将在汽车行业的自动驾驶训练中,起到巨大作用。


从 2024 年初 Genie 1 诞生时的一篇论文《Genie: Generative Interactive Environments》横空出世,到现在的 Genie 3,外界每一次都惊奇于 Google 在「多线程 AI 竞争」里的表现。


估计很多人会喊出:


Google 怎么还有精力搞世界模型啊?还搞的这么好?



可以这么说,在世界模型领域,Google 也先人一步拿走了通向 AGI 的又一个「旗子」。


正如 DeepMind CEO Demis Hassabis 所描述:


这种模拟环境将让 Agent「在虚拟的心智世界里进行学习,加速通向 AGI 的路径。」


至此,可以说,一个「全盛期的 AI Google」正在走来。


大象转身,技术变现


Google 在 AI 上发力的背后,当然也离不开组织架构的调整和人才策略的变化。


Google 旗下其实在过去 10 年中一直有 2 个顶尖技术团队:


【1】 Google Brain ,由 Jeff Dean 、斯坦福教授吴恩达和 Greg Corrado 发起;


【2】Google DeepMind,2014 年被谷歌买下的英国的 AI 初创企业。


2 支队伍,在 Google 内部并不像外人所想象的那样,达成了「Harmony」状态。


2022 年底,OpenAI 发布的 ChatGPT 让 Google 没办法继续忽略这种不协和。


短短几个月过后,来年 2023 年 4 月,Google 宣布将原 Google Brain 团队与 DeepMind 团队合并,组建全新的 Google DeepMind 部门,由 DeepMind 联合创始人 Demis Hassabis 出任 CEO。同时,Google Brain 负责人「大佬」 Jeff Dean 升任 Google 首席科学家,专注于长期的 AI 研究工作。


这一合并,在当时被视为 Google 对 OpenAI 冲击的回应,旨在集中优势力量,避免内部重复竞争,加速 AI 科研成果产品化。


1)Google Labs


调用技术出身的高管升任管理者自然不是新鲜事,更值得关注的是 Google 内部的 Google Labs,这个部门如今的地位,已远不止一个内部实验室,它正被视为驱动 Google 未来的 「AI 创新基因库」。


Google Labs 的历史可以追溯到 2002 年,它曾是工程师文化和「20% 时间」工作制的象征,诞生了 Google Maps 和 iGoogle 等经典产品。然而,沉寂多年后,在 2023 年的 Google I/O 大会上,它被再度启用,并迅速孵化各种「奇奇怪怪」的 AI 项目。



如今的 Google Labs 不再仅仅是一个创意的孵化器,更是一套「大厂 Native」的完整方法论:


【1】它为 Google 内部任何一个拥有奇思妙想的团队提供了快速验证的土壤,鼓励他们去创造那些看似「异想天开」的 AI 项目。


【2】它打通了从一个原型概念到可供大众体验的产品之间的最短路径,确保创新不会停留在演示阶段。


【3】这里是 Google 员工的「自由试验田」。


正如我们此前在《什么!Google 悄悄上线了一大堆实用的 AI 小工具?》一文中,盘点了 8 款非常有意思的产品。该平台孕育了一系列「小而美」却极具潜力的产品,像是 NotebookLM 和 Whisk。


这些成功的项目证明了,当创新者被赋予足够的自由度和资源时,他们的想象力能够创造出巨大的价值。而 Google 也愿意给这样的一个平台。


所以,为什么提到 Google Labs ?


因为,Google 再度将「创新」摆到了首位。


2025 年 4 月,原先负责 Bard 及 Gemini 应用整合的高管 Sissie Hsiao 卸任,接替她的,正是 Google Labs 的副总裁 Josh Woodward。



Woodward 的履历与 Google Labs 的精神连接相当紧密。他正是那款「从诞生开始,就炸场各个技术社区、媒体平台」的 NotebookLM 项目幕后推动者之一。


让这样一位「产品极客」和创新实践者,掌管 Gemini ,Google 的意图十分明确:


Google 不能再满足于仅仅展示其模型的技术能力,而是迫切需要将这些能力转化为用户可感知的、能够赢得市场的超级应用。


总之,Google 内部,即便是高层,也在赛马机制中不停调整,将更能执行「创新战略」的人才放在关键位置。


2)技术不再只为科研而生


以前 DeepMind 以学术研究见长,发表了许多划时代论文(如 AlphaGo、Transformer 等),Brain 团队也贡献了大量开源成果(TensorFlow 等)。


但是现在 Google 更加重视商业竞争力,据报道 Google DeepMind 开始对研究发表设置更严格的审核,以避免泄露有价值的创新或暴露短板给竞品。


被称为「ChatGPT奠基之作」的 Transformer 模型架构,在推出后不久,其八位著名作者(人称 Transformer 八子)在 2023 年均已离开谷歌,创办了自己的公司。



过去,这或许被看作是 Google「为他人作嫁衣」的遗憾。


但现在,视角已经改变:一方面,这证明了 Google 作为「AI 界的黄埔军校」为整个行业孕育了核心人才,其技术影响力早已超越公司边界;另一方面,这也促使 Google 痛定思痛,比以往任何时候都更重视「不放掉一个关键人才」。


在与 Meta 的人才争夺战中,Google 开始转变态度,竭尽全力「不流失人才」。


比如,有报道提到 Google DeepMind 为核心研究者提供每年高达 $20 million 的薪酬方案,还缩短股权归属周期至 3 年。



3) AI-First 公司


组织架构上,Google 把 AI 提升到了前所未有的战略高度。


CEO Sundar Pichai 多次强调 Google 是 「AI-first」 公司,如今更将 AI 视为整个公司未来的核心。Google 在内部成立了各种 AI 工作组,将搜索、广告、云等部门的资源向 AI 倾斜。


将最优秀的工程师、最大规模的 TPU 计算集群,优先供给 Gemini 等核心 AI 项目。所有核心产品线,从搜索、广告、云,到 Android、YouTube、硬件(Pixel),都必须回答一个问题:


你的 AI 战略是什么?


然后,旧的部门墙开始被打破。


Google 搜索部门与 DeepMind 团队的工程师坐在一起,共同开发搜索生成体验(SGE);Google Cloud 则将所有 AI 能力,从 AutoML 到算法交易,全部整合进 Vertex AI(Google 云 AI 平台) 这一统一平台,为企业客户提供端到端的 AI 解决方案。这种跨部门的深度协作,极大地提升了协同效率,避免了过去各自为战的局面。


正如 Bloomberg 的一篇文章标题所说,Google DeepMind 正从过去的「研究实验室」转型为「AI 产品工厂」。


这一转变,对于 Google 应对外部竞争、整合内部力量来说,目前看成效很好。因为,即便是 Google 在短时间内推出了如此多 AI 模型、产品更新,没有很好的统筹和执行是难以实现的。


总之,在整合一切能整合的力量后,Google 的 AI 组织文化也发生了一些转变,也正是我们最开始提到的:


Google 开始将技术积累,全部变现。


我们现在看到的,是一个褪去浮华、目标明确、执行力惊人的全新 Google。


可以预见,在未来的半年到一年里,我们将迎来一个「更高调、更快、更强」的 Google。


在我们此前的《2025 硅谷 AI 战局半年盘点》中,Fusion Fund 创始合伙人张璐就提到过一个细节:


表面上看,OpenAI 抢得先机,但很多人忽略了,Google 在大公司中才是最深的一个 —— 既有纵向的研究深度,也有横向的技术广度。


所以,当 Google 把这份深度与广度真正转化为产品势能,它的回归就不再令人意外。


从「过去 5 年,Google 再没做出革新产品」的质疑,到「AI 时代,Google 会被 OpenAI 摇摇甩在身后,成为众人口中的传统企业」,再到如今在基础模型、多模态、世界模型、应用产品四线并进。


Google 用了不到 1 年的时间,向世界重新证明了一件事:Google 还是那个 Google,它正在将积蓄已久的力量,毫无保留地注入到产品之中。


这一次,它不仅回到了牌桌,更带来了那种久违了的,用技术说话的「从容」。


如果你对 Google 有更多一手观察或内部消息,真诚欢迎在评论区分享,我们非常期待听到更多有价值的见解。


文章来自于微信公众号“十字路口Crossing”,作者是“镜山”。


AI中国

AI中国

9718 文章 1635989 浏览次数 950300 粉丝

评论 (0)

睡觉动画