为何强化学习火遍硅谷？AGI的关键一步

RL（Reinforcement Learning 强化学习）曾在AlphaGo时代登顶热搜，又在大模型浪潮中沉寂多年。如今，不管在AI Agent的技术架构还是模型预训练中，使用强化学习的方式搭建技术架构已经成为硅谷的一种主流趋势。强化学习的顶级人才，正成为硅谷巨头与投资人的香饽饽。

本期《硅谷101》，主播泓君继续对话Pokee.ai创始人、前Meta AI应用强化学习团队负责人朱哲清，我们将讨论：

1.模型进化与Agent的商业化中，最新技术方向是什么；

2.Meta收购ScaleAI背后的商业逻辑

3.硅谷强化学习顶级人才的大本营

以下是这次对话内容的精选：

01 强化学习与AGI的五个层次，真实的分水岭在哪？

泓君：我注意到这一次OpenAI的发布会里也提到了在用RL（Reinforcement Learning 强化学习）的底层架构。我知道RL（强化学习）的架构也是你的强项，你可不可以简单介绍一下用RL的架构好在哪？它对应的是什么？

来源：Scribbr

朱哲清：我觉得先要简单解释一下的是RL的架构有很多种，有完全以LLM（Large Language Model 语言模型）为核心的基于token（令牌）的，也有我们这种整个action（行为），即我要让Agent（智能体）不再以language token（语言令牌）作为决策的element（元素）的强化学习。

这两种决策方式没有好坏之分，他们的用例也不太一样。但是总体来说，为什么要用RL的framework（框架）去完成Agent训练是因为有目标在。不管是Deep Research（深度研究），它可能只需要从token by token（逐个令牌）的generation（生成）方式去尽可能地搜索相关信息，然后完成一整个报告；还是说agentic system（智能体系统）里面，像Pokee一样，我的工具可能就是一个tokenize（令牌化）的东西，然后我可能通过很多个工具放在一块可以解决一个问题，它都是以目标为驱动。跟过往的LLM训练很大的一个不同在于LLM本身的训练可以通过大量的supervised learning data（监督学习数据）完成，即auto regressive（自回归）的training（训练）方式，而agentic system很难做到。Deep Research仍然可以用一些，但是到了tool calling（工具调用）这一部分，单一的工具调用可以通过数据来完成，但是变成工具链的时候就很难再完成一个自回归的训练。比如我有一个任务，其对应的是50个工具调用，然后把这个数据复议地给它去训练，没有人撞见过这个数据，也不可能通过互联网去得到这个数据，因为互联网上也没有人产生过这种数据，所以如果你非要用这样的数据就只能靠人为标注了。

图源：技术吧

泓君：你觉得有哪些任务用监督学习微调的方式更加容易？有哪些任务是一定要通过这种RL（强化学习）的方式来做呢？这两者之间，我想它针对的任务也是不太一样的。

朱哲清：对，目前的共识是针对于世界上已有的很多协作数据、文本、视频、图片，这一系列有大量已标注数据的任务一般通过监督学习就可以得到很高的水平，然后再通过RLHF（Reinforcement Learning from Human Feedback 基于人类反馈的强化学习）的post training（后训练）的方式，使这个能力再上一个台阶可以更符合大多数人类preference（偏好）的效果。为什么要做这个是因为大量的监督数据中掺杂着好坏，并不是每一个数据点都是人类喜欢的，那它训练完了以后是完全泛化到所有互联网上的数据。下一步就是我能不能以人类喜好为目标去fine-tune（精调）一下我的模型，使它更偏向于人类喜好的模式，那这是RLHF的目的。

那为什么现在甚至要讲RL pretraining（强化学习预训练），原因是在于很多的任务是只有目标驱动的。

泓君：有哪些公司在做RL pretraining ？

朱哲清：现在只有研究的组在做RL pretraining，但我们其实已经开始做一些类似于RL pretraining的东西。但它还有些prior knowledge（先验知识）没法靠预训练得到，它基本上把中间的很多训练的过程给扔掉了。

以强化学习为核心的训练机制是为了解决什么问题，很多的任务是以目标驱动的，比如写代码，数学、物理，金融机构的一些东西；城市规划，operations（执行）、research（研究）、supply chain（供应链），它都是有明确目标的，世界机制也很完整，如果a发生了会出现b，在这种情况下pretraining就变得不是很有必要。第一，这种专业型的以目标为驱动的场景，大多数都是没有任何数据的。数学跟代码是唯一的俩个可能有相对较多数据点的场景。除此以外，我刚刚说的剩下那些点都没什么数据，很难在互联网上得到大量的数据去完成这个训练。

第二，本质上它要解决的问题是非常泛化的。而书面上已经出现的数据大多数都非常聚焦在经常会发生的代码问题和数学问题，非常高深难测的数学问题是从来没有出现过的，那它就必须要通过一个 counter factual（反事实的）形式，即我要生成一些市面上从来没有出现过的代码、数学、物理规划等输出。然后靠一个ground truth（真实标签）的validator（验证集）来告诉我做得对不对，然后去self train（自我训练）。这种训练方式非常适合于有ground truth且能够做出精确判断的用例，然后去进行优化，这是RL（强化学习）最闪光的时候了。其实有很多研究在网上都说过现在最大的问题是verification（验证），如果能找到一个好的verifier（验证器）就可以认为问题解决了，因为通过RL去完成这个验证器的优化就可以。接下来我也讲一个我认为可能有一定非共识的事情，在verifier之上，我们可能下一步最需要完成的就是怎么去提升验证方向的模型或者验证机制的泛化性，以及当Agent本身输出在偏离人们实际看到的东西，如何能够使verifier适应到新的输出上使它可以完成更好的验证。这个如果有谁能做出来，我们可能会真正踏入向super intelligence（超级人工智能）迈进的一条路，因为可能它产出的知识就是人类所不拥有的。

泓君：这个如果能做出来，它是可以解决幻觉的问题吗？

朱哲清：我觉得幻觉的问题是另外一个问题，这个东西很容易产生幻觉。就像我们当年看到Alpha Zero（DeepMind 开发的一种通用强化学习算法）打败人类一样，它能够走出的一些路子是人类正常想象不到的。甚至通过这个机制可能可以发现新的物理定理，发现人类所不拥有的知识，这可能是下一步真正迈向super intelligence的一个关键点，但是目前还没有很好的突破。

泓君：对，你说到这个点让我想起Open AI对AGI（Artificial General Intelligence，通用人工智能）的五个层次的划分，其实也是因为Open AI在这一轮跟微软争夺控制权的问题上，把他们之前跟微软签的一份协议给曝光了。我觉得整个路径就是在沿着你说的这个方向走，它的AGI的第一个层级就是聊天机器人，像ChatGPT的对话型AI。

来源：OpenAI

第二个是推理型的AI，这也是大家在去年看到的一个方向。第三个方向就是AI agent（智能体），这个AI不仅能思考，还能替代人类去执行多步骤的自主操作，完成一系列的任务，比如旅行订航班、订酒店，看起来今年也在朝着这个方向迈进了。第四个等级的AI就是创新型AI，称为innovators（创新者），它需要具备创造性思维，能够自主地发明新的工具或者方案。比如说在药物发现中它可以去发现一个新的分子，这个时候AI就已经可以提出人类没有想过的办法，然后自己去找到创新型的解决方案。像你刚刚说的如果有了这个方案，AI是不是在创作性的问题上可以超越人的范畴，去提出一些人没有想到的解决方式。第五个等级就是组织型或者是超人级的AI，它可以独立承担一个组织的全部职责，远超常人，有点类似于“超级AGI”。

朱哲清：不得不说的一个点是，他们对于AI能力的定义其实是偏产品能力的，而不是偏技术能力的。从某种意义上来说，第二跟三（层级）之间没有一个巨大的跨越性。第一（层级）看你怎么定义它了？因为聊天机器人可以是非常普通的，也可能是我们现在看到的这些聊天机器人。然后第四跟第五（层级）之间我认为也没有很大的gap（差距）。主要是第三到第四（层级）之间有个巨大的gap，核心原因就是验证能力的无法跨越。从人的角度来举例子，因为人的学习方式跟RL（强化学习）很像，比如小时候学一个东西，你可能可以判断的东西都是在你知识范围之内的；比如说你学会了加法，那你只能判断“1 + 1”，“2 + 2”等于多少，你无法直接泛化到判断“3 - 2”等于多少，这个reasoning（推理）的过程并不是一个靠内在知识就可以完全提升的。我们现在所说的verifiable（可验证的）的，比如reinforcement（强化）和fine-tuning（精调），都是以一个内在验证体系就可以完成的知识迭代。比如有一个verification（验证）是永久固定的，你可以通过这个verification去不停地提升，或者我预置了给你一定verification knowledge（验证知识），你可以根据这个知识不停提升。但如果一个agent可以做到20位数的加减法，但它从来没有见过减法这个东西，就仍然没办法verify一个减法是对还是错。

泓君：我觉得人也是，哈哈。假设我学的是数学，或者说我从来没有学过生物，我的数学领域的知识，我不知道生物的底层逻辑的话，我也很难泛化。

朱哲清：对，所以最难的两个地方是：

1. 如何通过一个人类给定的简单描述，比如减法跟加法的关系是什么，就能够（得到）从a推理到b的验证是什么，如果可以做到这一点，那Agent的验证泛化性就会上到下一个台阶。

2. 它能不能通过自我探索，基于现有知识的 grounding（锚定），去完成对于未来知识验证的延伸，这个也很难。比如你已经知道了大多数的碱和酸之间会生成二氧化碳，那你能不能对二氧化碳的性质进行一个简单的了解，并且对未来可能会出现（针对）二氧化碳的问题做出验证，这个也是非常难的。未来如果出现了类似的 Agent 产生的结果，能否verify 这个结果是对还是错？这个也非常非常难。

泓君：所以我们在说到AGI的五个等级时，从第三层级代理型AI到创新型AI，它可能是跨越从低于人类水平到超过人类的平均水平，甚至是超过最好的人类水平的时间基点。

朱哲清：对。所以第三到第四（层级）之间是远超过第一二三（层级）跟第四五（层级）之间的gap（差距）的。我觉得第五层级可能还有一个很微妙的东西：agent跟agent之间会不会出现人之间的politics（政治）？因为如果Agent之间是decentralized（去中心化的），那么它们的objective（目标）可能互相之间会有misalignment（不一致），在去中心化的multi-agent system (多智能体系统) 就有可能中出现politics。

泓君：你指的人与人之间的（politics），比如办公室政治斗争？

朱哲清：对，但是在Agent环境下会出现完全不一样的（情况），因为他们的objective会互相冲突，一旦出现互相冲突会卡死在那，甚至有点像在计算机系统里面的那种racing condition（竞态条件），直接lock（卡住）。

泓君：回形针问题。

朱哲清：对，可能会出现类似的情况。但是第一二三（层级）跟第四（层级）之间是一个鸿沟，如果谁能解决的话会是非常非常大的一个突破。

泓君：有大公司在沿着你说的方向，用RL（强化学习）做pretraining（预训练）的路径去解决吗？包括做验证机制的泛化。

朱哲清：验证机制的泛化还没有看到谁（在这个路径）有非常大的突破，目前就是Human Knowledge Distillation（人类知识蒸馏）来做到验证（能力）的提升。

强化学习预训练确实有很多人在提，但是它有一个致命弱点。因为RL是一个完全counter factual learning（反事实学习）的过程，一个无法避免的问题是它会不会出现能够解决问题但人类看不懂的解决方案。比如我们写一个代码验证能够验证input（输入）和output（输出）是什么。然后这个Agent 写了一段代码，它确实能运行，但是里面所有的operator（操作者）都是你看不懂的，比如object（对象）的variable（变量）的定义都是乱码；它的加减乘除都是用的非常复杂的，编译语言写出来的，然后把它再硬生生摁进了原来的代码里面，人类就看不懂了，但它就是能运行。所以它的reward definition（奖励定义）会非常重要，比如说human readability（人类可读性）要怎么样？但是human readability你没有办法用一个rule（规则）来解决，所以就变成unverifiable（不可验证的）。

泓君：整个听下来世界也很危险啊。我大概能理解为什么Jeffrey Hinton会那么悔恨自己去创造了AI的底层了，比如说当这个AI已经可以用人类不知道的语言写出超越人类知识的时候，还是蛮危险的。

朱哲清：那应该Richard S. Sutton会更悔恨一点，因为Jeffrey Hinton所创造的neural network（人工神经网络）更多的是能够表示人类知识的，而要做到counterfactual（反事实的）的知识发现或者policy discovery（策略发现），还得靠RL（强化学习）。我觉得最终如果要谈到监管的信息，对reward design（奖励机制设计）可能是需要一定的regulatory efforts（监管治理）的。训练的时候给Agent是什么样的incentive（激励），可能会决定这个Agent训练出来是什么样子。

泓君：嗯嗯。关于刚刚我们在比较强化学习跟SFT（Supervised Fine-Tuning监督微调）学习的时候，我也听到了这样一个说法，（我在有一期节目里面讲过），比如说我们用强化学习的效果比SFT的效果好两倍，但是它消耗的token（令牌）数量可能在10倍之多，对于现在大家马上要商业化，要应用来说，这个性价比算不过来，你怎么看？

朱哲清：对，这个是很正常的，因为reinforcement fine-tuning（强化学习微调）的做法是说我只有一个reward function（奖励函数），没有其他信息，我要去完成那个目标。而SFT（监督微调）是说我已经有标准答案了，我只是需要想办法去靠近那个标准答案就好。无法避免的就是RL fine-tuning（强化学习微调）的价格会更高，但是长期以往有更复杂的任务，它就没有办法做SFT，因为它没有标准答案，所以就不再是一个选择性问题。现在为什么会有选择性问题是因为我们解决的问题还不够复杂，到了未来问题会越来越复杂，当它到了极度复杂的时候就没有选择了。

泓君：嗯对。然后你刚刚提到强化学习跟监督学习微调的这些方式不太一样的一个大点：强化学习是在你没有标注数据的时候也可以用的方法，但是比如说对传统的方法，这个数据必须是标注的。而且这个可能已经慢慢的成为业界的一个共识了。

02 Meta收购ScaleAI，背后藏着多模态焦虑

泓君：那Meta 为什么还要收购Scale AI？

朱哲清：数据的重要性在现在是有下降的。但是有一个方向是无法避免的：数据的标注性在 Multimodality（多模态），特别是在视频和图片数据上，是目前无法跳开的一件事情。因为它的verification（验证）能力会基于，比如说我们要做基于视频跟图像的reinforcement fine-tuning（强化学习微调），它的图像输入的解析能力要达到很高的一个程度，而且没有办法靠human rule（人类规则）来完成，它必须要靠模型的解析能力去把视频和图片的内容解析出来，在这个内容之上人类才能写rule说我怎么去验证它，这个解析能力就变得非常的难。因为我们都知道图片，视频里面的很多细节是我们的模型现在没有办法很好地解析的，特别是这种Multi-model（多模态）的模型还是更多地偏向于文本的能力，所以他们可能想在多模态上面发力，而多模态以及Robotics（机器人）的标注是目前还跳不开的一个问题，所以这可能会是Meta接下来发力的一个点。

泓君：所以第一步多模态上还是得有先解析或者已标注好了的数据，把所有的数据先有一个基础的训练以后，我们再看强化学习能怎么处理。

朱哲清：我现在看的整个路径都是这样。ChatGPT最早是我有大量的数据训练出了模型，这个基础模型再做一些SFT（监督微调）把它变成一个精炼的基础模型，在这之上，最早是说我们拿一些数据训练一个reward model（奖励模型），然后通过这个奖励模型再去训练我的language model（语言模型），用RL（强化学习）去训练语言模型让它变得泛化性更强，或者说它在未知领域能够达到更好的效果。现在慢慢就变成强化学习微调，不要奖励模型，我就用现在的共识或者说LLM as judge（大语言模型评估）去训练模型，那这个慢慢会变成一个共识。

来源：DeepMind Safety Research

在多模态上面现在还处于第一阶段，第二步就是说我现在有大量的数据在训练一个基础模型，训练完了以后我做了一些强化微调，那我怎么能够去做一个标准化的judge（判断），verifier（验证器），或者说一个rule based（基于规则）的verifier？这个是目前不存在的一个东西，而且非常难做。因为一个图像本身它没有标准答案，所以它可能会说我先通过数据来训练一个奖励模型，然后使得我多模态能力变到最大。然后再说我多模态的能力已经很强了，我能不能通过这个输入输出的能力把它变成一个验证器？然后通过这个验证器我再去做强化微调，我觉得整个周期都是这样在转，到目前为止。

泓君：对，你觉得Scale AI在标注图片跟视频的这些数据上更像是一个技术含量很高的一个工作，还是说它其实就是我找很多工人来给这个数据打标，只要找的人多打的标多，它就可以成为一个数据库很多的地方，还是说它这个中间其实要很多考验你技术的环节？

朱哲清：我觉得第一点最难的地方就是文字的人为打标还稍微简单一点，图片的人为打标就变得更难了。比如说你要生成一个产品图，这个产品图是好还是坏？ 100 个人估计有 100 个说法，那他怎么能够标化那个产品图好坏？这个非常非常难，所以这里面其实有alignment（对齐）问题，这个是个技术问题，我觉得短时间内可能很难解决，他们可能会先写一个非常复杂的rubrics（评分标准），然后去训练这些人，说这些图哪些比较好，哪些比较不好，然后 Robotics（机器人学习领域）就变得更难了，就是说在这个情况下，Robot干了这么一件事情，是好还是不好？人可能都看不懂这个Robot在干嘛，但Robot可能自己心里有计划要先做这个再做那个，但是人可能完全不懂这个Robot为什么干这件事情。所以多模态，以后再加上多模态加action（执行）这一长串下来其实需要很多数据的支持。所以我觉得数据是个中期问题，如果你说非常短期，比如说资源，人才，中期可能会在数据上面有瓶颈，长期可能还是一个optimization RL（强化学习优化）的问题，所以它短中长期所需要的资源和能力都不太一样。而Meta可能希望Scale AI能够从某种意义上解决它自己的中期的数据问题，使得它自己多模态的能力会有比较大的提升。

泓君：它挖的这批人算是在解决长期问题吗？

朱哲清：对。

泓君：短期是什么？是算力？

朱哲清：对，我们最早不是遇到了卡不够，各种各样的问题，那个问题已经解决了，现在就到中期问题，中期就说我们可能已经解决了一些在文字，代码上面的 optimization（优化）问题，但现在多模态上面是不是也能够解决这些问题？在数据上还是有缺口的，那之前的那些数据缺口，在GPT4o之后的那一整批的iteration（迭代）里面其实已经基本上完成了对于代码和文字上面的这些迭代。那现在就到了多模态上面，等于是一模一样的gain chart（增益图），那它只是把这个东西横移过来了而已。

泓君：但是也会有新的问题产生，比如说刚我们提到的审美、图片、视频的标注。

朱哲清：对，但我觉得都是时间问题。

泓君：那你觉得你自己做Pokee AI，你搭AI Agent的底层开发哲学跟逻辑是什么？

朱哲清：最核心的逻辑是我们现在认为AI Agent使用不像当年ChatGPT刚出来的时候那么简单，但我们希望AI Agent 的使用就跟ChatGPT一样简单，不只是在用户（consumer）层面，而是对于任何的企业开发者（professional）来说，他们调用一个Agent就是对着一个简单的API（应用程序接口），一行 prompt（提示词），就完成了整个Agent调用，得到的就是你最后的结果，而你不用担心中间出现各种各样的Browser（浏览器）的环境，这些问题都不再存在，这是我们的开发逻辑。这是为什么？我们尽可能避免了非常非常复杂的Infra（infrastructure 基础设施）架构，而是通过很多的集成把更多的能力全都压在Agent本身的模型里面。而不是说我通过一个语言模型，然后不停地去调用市面上更多的infrastructure（基础设施）去bypass（绕开）这个工具的能力，把工具的数量去压缩。某种意义上说，你用浏览器就是用一个工具代替了几千个工具，但是同时也意味着你的模型所需要的能力会更小一些，而我们的方式就是我们希望模型的能力变得最强，然后工具就直接把它铺开，你就直接去想要用什么工具就好了，相当于一个Agent可以操作整个互联网和一个Agent只能看一个网页的区别。

泓君：模型的能力用到最强还是接其他的基座大模型吗？还是你们自己也会开发自己的模型？

朱哲清：我们会开发自己的模型，我们现在很多的模型调用、选择的这些能力都是我们自己的模型在做了，未来的话可能连语言模型的部分会跟我们的模型直接结合在一块，变成一个单一模型。那个时候就从用户的输入到语义理解到工具选择、规划，到最后的结果全都变成同一个Agent来完成，此时这个Agent会变得非常好用，因为它不再像很多市面上的Agent一样需要有大量的在Infra之间的跳转，而是说你只要把 prompt输进一个API，这个API就可以给你最终可交付的结果。

泓君：为什么要开发自己的模型？这个是所有的通用型Agent它必须具备的一个技能，还是说它也可以只接大模型？

朱哲清：如果你用浏览器，你用那些Sandbox（沙盒虚拟机），想让另外一个编程Agent去完成编程的过程，然后再给结果，你可以不用自己开发大模型。原因是在于你把工具压缩了，我去依赖于另外一个写代码的Agent去跳过这些工具的使用，或者说我选择一个浏览器的Agent，去跳过你选择工具的使用。这个就是通过压缩工具的数量选择更通用的工具来完成你的目标，而不是说直接选择工具。

为什么我们要去训练模型的原因：第一，成本很高。你从一开始去解析用户、理解、规划，到你选择Sandbox，其本身价格很高，浏览器还有视觉的部分。第二，它速度很慢。第三它的泛化性很差。它训练的时候见过很多网页，当你进入到专业场景以后，它就很难。我举个例子，有朋友问我们要的一个feature（功能），说我能不能从 PostHog，一个分析网络流量的网站上面，是个很复杂的网页，去找到这个用户本身的行为，然后基于用户行为的一些指标，去导入一个分析的script（脚本），然后在这个脚本里面得到几个segmentation（用户分群）的图表，再放进报告里生成一个PDF。就这么一个 Agent flow（流程），你是不可能通过浏览器Sandbox 来完成的，你必须要直接访问那个工具去得到最精确的数据然后再去做分析，那这个流程就变成了我们的优势。类似于这种的用户设立其实非常多，如在广告分析，用户分析里面，其实有很多的工具是在互联网上面，但是正常的浏览器肯定是搞不定的，因为他们在训练当中从来没见过。所以我们能够通过我们的foundation model（基础模型）把成本降下来，把泛化性提升，把它适用的workflow（工作流）的类型有很大程度的拓展，而不只是限定于那几个最简单的购物，写幻灯片，做些研究，其实有很多专业型的workflow是他们解决不了的。

泓君：所以你们搭的是一个垂直的选Agent的模型对不对？

朱哲清：选工具的模型，我们不选Agent，它不只是选单一工具，它是选一个工具序列，就是一个推理加工具选择的一个模型。

泓君：因为我看见大家在谈到AI的时候，大家其实一般有两种派别：一种是我把越来越多的问题交给AI，然后端到端的训练，它主打的就是人更少地干预，让AI去犯错误，去学习。那另外一种就是说我们在真实应用中还是产品跟用户体验优先，那这种情况下我们就要减少幻觉，方式是我们还是要拆分一些细节，让它的工作流中能确认的地方更加确认，让产品跟应用能够先用起来跟落地，你自己的产品哲学上更偏向于哪种？

朱哲清：我作为一个CEO，现在一半的我是一个产品人，一半的我是一个研究者。作为一个研究者我同意第一个观点，因为越是通用的环境能训练出越强的模型。作为一个产品人，我会选择第二种，因为用户的体验跟模型的能力是不成正比的，我们模型能力肯定很强，但是最后用户的体验可以是非常糟糕的。

举个简单例子，我们之前遇到的问题就是我们模型其实选择工具从头到尾都是对的。我们的工具是可以发帖到所有平台的，以社媒运营为例，之前我们有一段时间我发布完了以后，那个链接没有给到你，有很多用户就非常困惑的来问我这发文发到哪去了，他也不知道自己应该跑到哪个账户里面去看是不是有新的视频，新的图片出现了，就导致能力其实都端到端打通了，但是这个用户不知道你的产品在干什么。还有一个另外的例子，比如生成Google Slides（幻灯片），我们之前是给你个Google Slides链接你自己去看。但现在我们会直接把它embed（嵌入）在我们的网页里面，你可以直接在Pokee 里面修改Google Slides，大家就会觉得这个是完全在我的掌控之下的一个东西，而不是说我还要跑到另外一个网页里面去再改，完了回来再看你生成点什么东西。所以它有很多这种用户细节在里面，跟你模型能力毫不相关。在这种情况下，作为产品或者作为一家创业公司，你必须要去打磨产品的细节。而模型能力是决定你的产品下限的，而产品的上限是由你的产品细节决定的。

03 强化学习正当时，技术圈层与路径正在重构

泓君：对，我们刚刚好多次提到了Richard S. Sutton 教授，他是强化学习的奠基人之一，也是2025年的图灵奖得主。你在斯坦福读博，自己学的也是强化学习嘛。所以你跟Richard S. Sutton的渊源是什么？

来源：amii.ca

朱哲清：Richard S. Sutton跟我的导师是铁哥们，在他们提出RL（强化学习）这个概念，当时提出temporal difference learning （时序差分学习）的时候就认识了。当年证明Q-learning，最基础的基于时序差分的策略学习，的理论能够被function approximation（函数逼近）完成，那篇论文是我导师写的。然后我在斯坦福读博的时候其实见过好几次Richard S. Sutton，甚至有一次在我导师家里，他来开party，然后大家就在一起吃烧烤。

为什么我提到Richard S. Sutton？第一是他的这个经历跟很多人不太一样，他当年其实是罹患癌症的，有好几年都没有任何工作，一度非常艰难，但是他从来没有放弃RL这个研究方向。后来他去了University of Alberta（阿尔伯塔大学），Alberta给了他挺大的支持，但他整个人身体的状态一直都不是很好，即便很多人都说强化学习是一个玄学，那时候也没有放弃过。

第二个就是他这个人，我跟他交流过几次，他非常讲原则。他的这批学生是我们公司的视觉科学家，所以有更多的渊源在里面。我们其实有聊很多我们初创的想法，模型的想法，他其实有非常多的前瞻性的想法，他不会拘泥于现在，比如说LLM（大语言模型）的能力，或者说基础模型是否会取代强化学习。就是因为他的坚持，所以现在有了RL（强化学习）整个行业的基础，有那么大的发展。虽然现在市面上有很多谣言，很多人其实并不是特别懂强化学习，但所有人都在说我们无论如何要做强化学习。但真正能够把强化学习优化好的，其实整个行业也就这么几十号人吧。然后你可以看到都集中在这些人发的 paper 和做的产品里面，我觉得未来还是有很大的潜力的，而且要感谢他能够对这个行业和他自己的领域有那么强的坚持，否则也没有我们现在那么大的发展。泓君：嗯，然后你提到你跟Richard S. Sutton在聊天的时候，他提到了很多非常前瞻性的想法，你觉得有哪些想法是非常打动你的，让你印象深刻的？

朱哲清：我觉得他跟我提了很多次model plasticity（模型可塑性）这个问题，模型本身你是不可以无限制对它训练的，你训练到某一个程度它就会fall apart（崩溃）。其实在强化学习领域，之前经常看到叫catastrophic forgetting（灾难性遗忘），就是说在你训练很久很久以后，它开始忘记所有过往的学习到的知识，然后整个模型像疯了一样，它所有原来的 policy（策略）都消失。

泓君：这个出现过吗？

朱哲清：出现过，很多文章里都提到过这种事情。这是为什么你一开始模型要建的足够大，其实就像海绵一样，然后你往里面不停地注水，你注水注到一定程度它满了，那你再往里面注水会发生什么？就是它会流出来一些，但流出来的不一定是注入的水，很有可能是原来已经有的水，那如果原来已经有的一部分水是很重要的水，就像你大脑里面不停地灌输知识，然后到最后你过载了，把加减乘除忘了，那是不是剩下的所有的知识体系就直接崩溃？这个问题本身叫模型可塑性，就是说它的可塑性到了某种程度就直接崩溃了，然后你要怎么去解决这个问题叫 continue learning（持续学习），现在可能有一天人类会生成一个1TB data，那10天是10TB，那未来可能生成数据还会越来越多，那你怎么能够用一个模型无限地去训练它，让它仍然能够对未来的知识进行获取？这是不可能的。

泓君：你觉得现在整个模型的训练，比如说到GPT 4，甚至是GPT 5，它的数据量已经到极限了吗？

朱哲清：还没有，模型的规模是一个线性在增长的过程，但是我们的数据量是一个指数在往上涨的过程，到了某一个阶段一定会碰壁的，没有办法这样规模化下去。其实我们在Pokee训练的时候就已经遇到过这个问题，因为我们训练的模型比较小，然后我们的工具量，数据量又很大，我们其实用小模型训练到某一个点，它就突然整个performance（表现）就会掉得非常厉害。所以我们必须要把模型变得更大一号然后再去训练，才能够不出现这个灾难性遗忘的情况，它取决于你的使用场景，有些使用场景可能小模型有一定的数据量它就已经发生了。另外一个他一直提的就是reward design（奖励设计）的问题。在未来的世界，如果RL作为核心的模型优化机制了，那去设计这个reward model的人，他有什么样的标准？这个激励本身怎么设计能够保证他的道德标准？这是一个非常麻烦的事情，因为强化学习是一个sequential decision making（序列决策）的问题，它的激励是相加的。你可以定义一个单步的激励是合理的。当它被加起来变成很多步以后，它就变得不是一个你可预测的东西，因为它的总体激励如果是跟着策略（Agent policy）或者它的决策机制所改变，它的设计就可能跟你原来的想法已经背道而驰了。然后还有一个问题，比如说你有多个激励怎么办？你要同时优化四五个不同的目标，在这种情况下你怎么能够做到平衡这些目标？在它们当中找到一个每个项目都做得相对比较好的状态，这也是个问题。他也提出过这个想法叫generalize value function（广义价值函数），怎么能够去学到一个同时优化多个目标的价值函数？价值函数就是在强化学习里面去决策我去到下一步，去到哪个状态能够达到更优解的一件事情，然后它可以在一个状态下得到多个目标所对应的值，这样它可以判断如何平衡这些对应的目标。

泓君：嗯，挺有意思的。你觉得你从他身上学到了什么？

朱哲清：如果你自己觉得第一性原理是对的，就不要放弃。有很多东西，中期、短期、长期所看到的结果都很不一样。有些东西可能短期内你可以看到很多的结果，但你会卡死在那。但有些你可能退一步，真正去专注于你认为第一性原理是对的东西，你可能长期会得到更好的结果。

泓君：嗯，你说到现在对RL（强化学习）研究得特别深的人，是以哪些高校或者以哪些中心为原点的？

朱哲清：就是以Open AI早期的这批人，Pieter Abbeel的学生，可能现在PI（Physical Intelligence机器人公司）里面的这批人，Sergey Levine的学生，Richard Sutton的学生基本上都在学界。除此以外，也有很多现在已经分支出来的好的教授，学界偏多一些，但是学界一个问题就是大家做RL都做得太理论，写很多Regret Bound（后悔界），写一些新的理论之类的。产业的话，就是David Silver为核心的DeepMind的那批人，我导师也在DeepMind，可能对强化学习的领域是最了解然后做的最好的，然后Microsoft也有，比如说像John Langford其实是做强化学习的理论方向很先驱的人之一，但是这个核心人群并不大，基本上不管他们怎么换地方，你都看到是这几个核心人底下的学生，或者跟他们一同工作的这些人衍生出来的。

泓君：对，你觉得伦敦会是一个RL的大本营吗？我是想到当年AlphaGo、AlphaZero的那段时间，是强化学习非常火的一段时间，可能也是最早的一批人在研究强化学习的方向的，算是一个小热潮吧。你觉得那个时候研究强化学习，跟现在大家去研究强化学习，方向上会有很大的不同吗？

朱哲清：2015-2018年是AlphaGo、AlphaZero、Mu Zero，到后面比如StarCraft游戏里面的，强化学习发展的一个巅峰，之后就开始沉寂了，然后所有人都说大语言模型可以解决所有事情，到现在突然之间强化学习又变火了。我自己看下来是觉得伦敦的David Silver他们这批人做的强化学习是有一个自己的风格的。它有一个formal verification（形式化验证）的方式，一定能够知道对或错。基于这个verification（验证）方式去训练一个非常dedicated（特定的），只能解决一个问题的Agent。它没有真的说通过一个非常通用的采取决策的action space（行动空间）去训练一个可以解决很多问题的，可验证的Agent。但是现在伦敦其实做强化学习的人也不止David Silver，有很多人在做强化学习，我觉得大本营还是湾区，因为Open AI跟DeepMind的人都在那，大概率还是以那边为核心。

来源：Level Up Coding

泓君：OpenAI是不是也是2015-2017年左右是花了很多时间去研究强化学习的？因为我记得他们早期的研究就是有各种游戏里面的推方块，我觉得那些好像都是强化学习去解决问题的。

朱哲清：对对对，最早的时候是Gym environments，他们希望能够通过一些比较简单的游戏证明强化学习的目标导向的解决问题的能力，但因为这些游戏就止于游戏。2018 年为什么慢慢RL（强化学习）开始沉寂的核心原因就是因为大家都认为RL就是一个游戏环境的产物，它没有一个真正能够解决实际问题的能力。但是直到现在我不得不承认的一点就是，强化学习还是作为一个大语言模型之上的optimizer（优化器），它并不是从零开始训练出了一个可以解决通用问题的机制的。所以RL pretraining（强化学习预训练）也是一个值得去深究的一件事情，这个事如果能做成的话意味着可以从零开始训练一个完全通用的强化学习解决方案，这个会是一个非常大的一个成果。

泓君：在我们整个的聊天过程中，我感觉你的整个思维方式，包括你的眼界还是非常非常超前的。但是当你真正去做产品或者去跟投资人卖一个想法的时候，可能有的时候是越超前是越没有共识的，你有遇到类似的困难吗？

朱哲清：有，其实上礼拜在ICML panel的时候，其中有一个问题就是怎么跟投资人聊特别技术的初创项目，我个人认为是不要尝试去卖你的想法，除非你的想法是共识，但是一旦你的想法是超共识的话，那投你的项目也没有任何的意义。如果要去跟投资人聊的话，利用市场的共识，但是在这共识之上加一个逻辑飞跃，比如说市场共识是强化学习agent是很火热的，大家都觉得这个东西有未来，你的唯一的那个吸引人的点是说你怎么能够实现它？同时你实现它的时候你有什么优势？你告诉他我训练强化学习Agent的这个方式跟所有人都不一样其实是没有任何意义的，所有人都不会理解说你为什么跟别人不一样，你要说的是你要解决的这个问题在你的技术基础之上是很有意义的，以及你为什么有这个不公平的优势。

泓君：刚刚其实我们在谈到你做这个AI Agent底层哲学的时候，我也把两种不同的思维方式有丢给你。然后我们刚刚在评价几家不同的AI Agent公司的时候，比如说GensPark、Manus、 Open AI 的ChatGPT，还有Fellou，所有的公司大家用的方法都不太一样，你觉得未来Agent能在这中间脱颖而出的核心点是什么？是技术路线、产品、还是什么样的决策？

朱哲清：我觉得这些公司最后都会走向不一样的专注领域，像早期的，Mistral，OpenAI，Anthropic，大家后面都走了不一样的路。最后会有一个区分化、多样化的过程，然后大家会发现Agent 都越发展越不一样，因为创始人也不一样，人在这里面会自然地发展出很多不一样的一些决定。第二，技术方向会是一个决定一家公司能否存活下去的核心，原因在于agentic system（智能体系统）的成本很高，虽然你融了很多钱，但是很多 AI 公司的一个核心痛点就是你融了钱，你的growth（增长）越快，你死得越快，因为你都是入不敷出的在做增长，然后你下一轮融资的时候给所有的投资人一看，你的毛利润全是负的50%，第一反应就是就算我投了你下一轮你有什么办法把它转正吗？你说你没有，那投资人也不会买账。总体来说就变成了一个无限消耗的过程，那技术的提升会使得你可以把这个毛利润转正，对投资人来说，只要能增长，那就值得投。所以技术路径是你能够活下来的核心，但是最后的产品发展形态以及最后的市场的格局会是创始人以及这个团队的决策所导致的，而且区分度会很大。

泓君：对，讲得特别好。如果你技术路径选错了，那可能整个AI的成本就太高了，短时间还可以靠融资维持，但是这不是一个长时间能一直维持的事情。

朱哲清：当然很多可能都估值很高，都快上10亿美金了，可能被收购的可能性不太大。但是小一点团队，现在相对抛得比较高的那种团队，被收购的概率其实都挺大的。所以这个市场可能接下来一到两年都会是一个非常疯狂的大鱼吃小鱼的过程，所以我们可以拭目以待，我觉得接下来的商业市场会是一个非常有意思的故事。

本文来自微信公众号“硅谷101”，作者：硅谷101，36氪经授权发布。