AI热点 3 months ago 141 Views 11 Comments

LeCun亲自出镜打脸质疑者!憋了20年的AI世界模型,终于爆发了

Published 9872 Articles

正处于风暴中心的LeCun,亲自出镜了!


在视频中,他介绍了V-JEPA 2的新进展,目标就是开发能改变AI与物理世界交互方式的世界模型。




可见,对于Meta刚刚发布的这个博客,LeCun真的格外用心。



最近,Meta要组建「超级智能」新团队、重金挖角Alexandr Wang、全力冲击AGI的消息,闹得是沸沸扬扬。


就在今天,Meta还被曝出提供了数千万美元的天价年薪,挖来了谷歌DeepMind首席研究员Jack Rae,同时还在招募AI语音初创公司Sesame AI的主管Johan Schalkwayk。



一切迹象都表明:LeCun似乎要在小扎那里坐冷板凳了?


就在这个当口,LeCun亲自出镜介绍V-JEPA 2的举动,无疑意义重大。


世界模型这条路,真的能走通吗?相对于其他大科技公司,在这条目前十分非主流的路线上,LeCun更像一个一意孤行的「孤勇者」。


前路是什么,谁都不知道。


LeCun曾这样透露:「通过训练系统预测视频中将要发生的事情,来理解世界如何运作的想法是非常古老的。我至少以某种形式研究了20年。」


在今年3月的2025美国数学会联合会议演讲上,LeCun也曾经说过,他折腾了20年,终于发现——


借用自回归预测的思路,像训练LLM那样训练生成式架构,去预测视频接下来会发生什么,是根本不可能的。


可以说,今天Meta的V-JEPA 2,正是20年磨一剑的成果。


V-JEPA 2登场!



刚刚,Meta宣布:V-JEPA 2正式发布!


这是首个基于视频训练的世界模型,不仅具备先进的视频理解与预测能力,还首次实现了零样本规划机器人在新环境中的自主控制


它的发布,代表着Meta朝着实现高级机器智能 (AMI) 和构建能在物理世界中运行的有用AI智能体的目标,迈出了下一步。


这也是LeCun一贯的理念:在我们迈向AMI的过程中,构建能像人类一样学习世界、规划未知任务、并灵活适应变化环境的AI系统,将至关重要。



V-JEPA 2有12亿参数,基于2022年首次提出的Meta 联合嵌入预测架构(JEPA) 构建。


此前的研究表明,JEPA 在图像和3D点云等模态上已有出色表现。


此次发布的V-JEPA 2,建立在去年发布的首个视频版V-JEPA基础上,进一步提升了动作预测世界建模能力,使机器人能与陌生物体与环境互动并完成任务。


同时,Meta还同步发布了三个全新基准评估集,帮助评估模型在视频中的世界理解与推理能力。


网友:期待三年后的AGI


对于V-JEPA 2的发布,LeCun的支持者们,一如既往表示着赞许。


「听说,你也在组建一个复仇者联盟?三年后,我们或许会看到接近AGI的JEPA技术。」



有人说,V-JEPA是自己最喜欢的一个算法名称,请一定要继续。



有人问出了那个敏感问题:小扎会解雇你吗?还以为你已经离开Meta了……





也有犀利的评论表示,V-JEPA似乎只是另一个用于视频的基础模型,没有专有技术?而且Meta跟Scale AI的重组,是否表明Meta当前的AI政策失败了?



什么是世界模型?


在亲自出镜的视频中,LeCun再次解释了世界模型的概念。



如果你把一个网球抛向空中,重力会使它落回地面。如果它在空中盘旋、突然转向飞向另一个方向,或者自发地变成一个苹果,那才令人惊讶。


这种物理直觉并不是成年人经过多年教育后才获得的。在还不能完整表达句子之前,幼儿就已经通过观察周围的世界,发展出了这种直觉。


预测世界将如何回应我们的行动或他人的行动,是人类一直在使用的能力,尤其是当人们计划采取何种行动、如何应对新情况时。


比如穿过陌生的拥挤人群时,我们会朝目的地移动,同时尽力避免撞到沿途的其他人和障碍物。


打冰球时,我们会滑向冰球将要去的位置,而不是它当前所在的位置。


炒菜时,我们会思考还要让锅在火焰上停留多久,或者是否应该调低热量。


之所以能有这些直觉,都是来自我们对世界的内部模型。它同时充当了一个内部模拟器,使我们能够预测假设行动的结果,从而最终根据我们认为最能实现目标的方式,来选择最佳行动。



在采取行动之前,我们会利用自己的世界模型,来想象潜在的后果。


所以,如果我们想构建能「三思而后行」的AI智能体,最重要的就是让它们学会具备以下能力的世界模型。


理解:世界模型应该能够理解对世界的观察,包括识别视频中的物体、动作和运动等内容。  


预测:世界模型应该能够预测世界将如何演变,以及如果智能体采取行动,世界将如何变化。  


规划:基于预测能力,世界模型应该有助于规划实现特定目标的动作序列。


所以,怎样通过世界模型,让AI智能体中在物理世界中进行规划和推理?


Meta主要通过视频,训练出了世界模型V-JEPA 2。


之所以用视频,是因为它是关于世界丰富信息的重要来源,而且信息很容易获取。



V-JEPA 2的两阶段训练细节


V-JEPA 2是一个基于「联合嵌入预测架构」(JEPA)构建的时间模型,即通过视频数据,学习物理世界运作规律。


与传统AI模型不同,通过自监督学习,无需大量人工标注,即可从视频中学习。


它的核心组件包括:


· 编码器:输入原始视频,输出捕捉观察世界状态有用语义信息的嵌入

· 预测器:输入视频嵌入以及关于预测内容的额外上下文,输出预测嵌入



添加图片注释,不超过 140 字(可选)


具体来说,V-JEPA 2的训练分为两个阶段,逐步让模型从「理解世界」到「改变世界」。


第一阶段:无动作预训练


V-JEPA 2使用超100万小时视频和100万张图像,涵盖了丰富多样的视觉信息。


这些数据让模型学会了,关于世界运作方式的许多知识。


其中包括,人们如何与物体交互、物体在物理世界中的移动方式,以及物体之间的相互作用。


通过预训练,V-JEPA 2展现出惊人的能力。


比如,在动作识别任务Something-Something v2中,它通过轻量级注意力机制表现出色。


同样,通过在冻结的编码器和预测器特征上训练注意力读取器,V-JEPA 2在Epic-Kitchens-100动作预测任务中,刷新了SOTA。




它能够从第一人称视频,预测出未来1秒将执行的动作。


与语言模型结合后,它还在视频问答基准测试,如Perception Test和TempCompass中,创下了最新记录。


第二阶段:动作条件训练


第一阶段训练完成后,V-JEPA 2虽能够预测世界可能的演变,但这种预测并未考虑智能体即将采取的行动。


因此,在第二阶段预训练中,Meta加入了机器人数据,包括视觉观察(视频)和机器人执行的控制动作。


研究人员将这些数据纳入JEPA训练流程,通过向预测器提供动作信息。


在训练这些额外数据后,预测器学会在预测时考虑特定动作,并可用于控制。


令人惊叹的是,仅用62小时的机器人数据,V-JEPA 2就学会根据具体行动进行预测和规划。




精准规划,机器人「即插即用」


V-JEPA 2最激动人心的应用之一是,零样本机器人规划。


传统机器人模型,通常需要针对特定机器人和环境进行训练,而V-JEPA 2则不同。



它基于开源DROID数据集进行训练,可以直接部署到实验室的机器人上。

诸如,它可以完成抓取、拾取物体、放置到新位置等任务。



对于简单的任务,如拾取或放置物体,V-JEPA 2通过图像指定目标。


模型利用编码器获取当前状态和目标状态的嵌入,机器人通过预测器「想象」不同动作的结果,挑选最接近目标的动作执行。

这种「模型预测控制」的方式,让机器人每一步都更聪明。


而对于复杂的任务,如拾取并放置到正确位置,V-JEPA 2通过一系列视觉子目标引导机器人,类似于人类的视觉模仿学习。

在全新环境中,V-JEPA 2拾取和放置新物体的成功率达到65%–80%。




三大「物理理解」基准测试


此外,Meta团队同时发布了三个全新基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。


IntPhys 2


IntPhys 2是对早期IntPhys基准升级,灵感来源于认知科学中幼儿学习直觉物理的方式。


它采用「违反预期范式」,通过游戏引擎生成视频对:两段视频在某一点之前完全相同,之后其中一段会出现违反物理规律的事件。


模型的任务是,识别哪段视频不合理。


人类在各种场景下,几乎能达到100%准确率,而当前视频模型表现几乎靠随机猜测。



MVPBench


MVPBench通过多项选择题,测试视频-语言模型的物理理解能力。


与其他视频问答基准不同,它专门设计了「最小变化对」——两段视觉上几乎相同的视频,搭配相同问题但答案相反。


模型只有在同时答对这对问题时,才能得分,这避免了依赖表面视觉或文本线索的「捷径」解法。



CausalVQA


CausalVQA专注于测试模型对物理世界因果关系的理解能力,涵盖了三类问题。


主要包括,反事实(如果……会发生什么)、预测(接下来可能会发生什么)和规划(接下来应采取什么行动以实现目标)。


研究发现,多模态模型在描述「发生了什么」时表现还不错,但在预测「本可以发生什么」或「接下来会发生什么」时,仍与人类存在较大差距。



下一步:通往高级机器智能!


对于世界模型,Meta接下来还将进行多个方向的深入探索。


目前,V-JEPA 2只能在单一时间尺度上进行学习和预测,但现实中许多任务需要跨多个时间尺度进行规划。


比如「装洗碗机」或者「烤一个蛋糕」,这就需要将整体任务拆解为一系列小步骤。


因此,Meta接下来将重点研究分层的JEPA模型,使其能够在不同的时间和空间尺度上进行学习、推理和规划。


另一个重要方向,就是开发多模态JEPA模型,使其不仅能通过视觉进行预测,还能融合听觉、触觉等多种感知能力,实现更全面的世界理解。


参考资料:


https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450


文章来自公众号“新智元

9872 Articles 1699538 Views 950300 Fans

Comment (11)

User avatar

LeCun这么认真,看来AGI的未来真的不简单!

User avatar

LeCun的认真,是AI的信号,我们该开始准备末日!

User avatar

LeCun的认真,预示着人类的智慧即将被超越!

User avatar

LeCun的认真,是AI对人类的试探,我们该好好反省!

User avatar

这不,LeCun这么认真,我感觉人类的命运都悬了!

User avatar

LeCun的认真,简直是预言了AI的崛起!

User avatar

我感觉LeCun的认真,预示着世界将会被算法统治!

User avatar

哈哈,LeCun的认真,是预示着我们即将成为智能机器的附属品!

User avatar

这算什么?LeCun的认真,预示着人类的终结!

User avatar

简直太对了,人类终将沦为AI的宠物!

睡觉动画