我最近有一种感觉,AI圈那股狂飙突进的劲头,好像稍微慢下来了一点。
就像一场震耳欲聋的摇滚音乐节,最燥的几首歌唱完了,全场蹦迪的人开始有点喘。大家都在喊“Bigger is better”,参数从亿到万亿,模型一个比一个大,好像只要把炉子烧得够旺,就能炼出真金。可现在,炉子快烧到物理极限了,传说中的“真金”——通用人工智能(AGI),却还是隔着一层雾。
就在这有点迷茫的当口,谷歌,这个当年用一篇《Attention is All You Need》开启大模型时代的“始作俑者”,又慢悠悠地递过来一张纸条,上面写着几个字:
《通用智能体需要世界模型》(General agents need world models)
标题平平无奇,但里面的意思,我觉得够整个行业消化好几年。
简单说,谷歌用数学告诉你一件事:别瞎折腾了,通往AGI唯一的路,可能就是让AI学会“做梦”。
什么叫“做梦”?就是构建一个“世界模型”(World Model)。
我们先别管这个词有多科幻。想想我们自己。你早上出门,脑子里会想:“我得先下楼,坐地铁,可能会堵,得提前10分钟,到了公司先打卡,再泡杯咖啡。”
你看,你没有像个扫地机器人一样,撞到墙再转弯。你在行动之前,脑子里已经把接下来要发生的事,像放电影一样过了一遍。你对这个世界如何运转,有一个内在的、动态的、可以推演的模型。这就是你的“世界模型”。
过去有种很酷的理论,说智能根本不需要这么复杂的东西,“世界本身就是最好的模型”。AI只要像个条件反射的生物,不断和真实世界互动,就能涌现出智能。这套“无模型”的玩法也确实很成功,搞出了很多厉害的机器人和算法。
但谷歌这篇论文,像是给这套理论画上了一个句号。它用一种近乎冷酷的数学逻辑证明了:一个只会条件反射的AI,永远只能处理简单任务。任何一个想要完成复杂、长期、需要规划的目标的AI,它肚子里必然、必须、一定会有一个“世界模型”。
这事儿让我想起了OpenAI那个神神叨叨的天才Ilya Sutskever。一年多前,他就说,我们训练大模型预测下一个词,看似简单,其实是在逼着它学习整个世界的运行规律,一个压缩过的“世界模型”。
当时大家觉得,嗯,说得好,很有哲学意味。现在谷歌的论文出来了,等于啪一下把一本数学书拍在桌上,说:“那位诗人说的,是物理定律。”
更有意思的是,谷歌还说,我们甚至可以像个心理医生一样,去“套话”AI,把它心里的那个世界模型给扒出来。
怎么扒?你不必打开它的代码(脑壳),你只需要给它出一些精心设计的“情景题”。比如,“嘿,AI,你的目标是去厨房拿可乐,但路上有5块乐高积木,你必须踩到其中至少3块才能完成任务。”
通过观察AI为了完成这个奇葩任务而做出的选择和规划,你就能反推出它对“走路”、“障碍物”、“任务优先级”这些物理和社会规则的理解程度。它完成得越好,说明它内心的那个“世界模型”就越精确。
这一下,事情就变得非常深刻了。
它意味着,我们可能正站在一个时代的交界口。过去,我们称之为“人类数据时代”。AI像一个超级学霸,把人类图书馆里所有的书都读了一遍,变得博学无比。但它终究是个书呆子,知识都来自二手经验。
而未来,将是“经验时代”。
超人的智能,不可能仅仅通过“读书”得来,它必须亲自去“生活”。可我们又不能把一个初生的AI直接扔到现实世界里去乱撞。怎么办?
给它一个足够真实的梦境。
谷歌前阵子发布的Genie 2,就是这个思路的极致体现。你给它一张图片,它能生成一个无限大的、可操作的3D世界。这个世界,就是给AI准备的“模拟人生”游戏,是它的“盗梦空间”。
AI可以在这个永不枯竭的梦境里,经历一万种人生,犯一万次错误,学习物理定律,理解因果关系,从一个只会乱爬的婴儿,成长为一个深谋远虑的“人”。
所以,现在AI竞赛的本质可能已经变了。不再是谁的数据多、谁的机器快。而是——
谁能为AI构建一个最逼真的梦,谁的AI就能从梦里学到最多的东西。
那个最会“做梦”的AI,或许才是最终极的智能。
这场通往AGI的征途,尽头不是代码,不是算力,而是那片由0和1构成的,无限深邃的梦境。
本文来自微信公众号“朋克周”,作者:朋克周,36氪经授权发布。