Midjourney操作界面

谷歌DeepMind:大模型明知到最优解,但还是故意绕了一圈

4.8
0热度

现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解决问题。毕竟,大家觉得LLMs肚子里有“世界知识”,不需要手把手教也能猜到怎么干。而且,它们还有“思维链”(Chain-of-Thought,CoT)这种“聪明脑回路”,能一步一步推理,更好地理解环境和自

现在的大模型(LLMs)已经非常智能。写文章、编代码、当医生、当老师,样样精通。于是乎,有人就想了:既然它们这么聪明,能不能让它们自己做决定,当个“智能体”呢?比如,在复杂的环境里自己探索、自己解决问题。

毕竟,大家觉得LLMs肚子里有“世界知识”,不需要手把手教也能猜到怎么干。而且,它们还有“思维链”(Chain-of-Thought,CoT)这种“聪明脑回路”,能一步一步推理,更好地理解环境和自己的行为。听起来是不是很完美?

image.png

结果呢?啪!打脸了。研究人员发现,这些LLM智能体在需要做决策的时候,表现那叫一个“次”。它们不够“好奇”,探索得不好,老是选不到最佳策略。更尴尬的是,它们居然存在一个“知行合一”的大问题。

AI的“知行不一”:我知道该减肥,但我就是做不到!

论文里把这个“知行不一”的问题,叫做**“Knowing-Doing Gap”(知-行差距)**。形象地说,就是LLMs“知道”怎么做是对的,甚至能把正确的“思路”(CoT)给你写得明明白白,告诉你这么做会有啥后果。但到了真正“做”的时候,它们却偏偏不按“知道”的来,选择了别的行动。

image.png

这简直就像我们自己:明知道熬夜不好,还是刷手机刷到凌晨;明知道健康饮食要多吃蔬菜,手却伸向了炸鸡。AI,你是不是在我家装了摄像头?!

论文里的数据显示,在某些任务中,LLM智能体生成正确“思考过程”(Rationale)的比例高达87%。也就是说,它们脑子里门儿清!但即使“知道”正确答案,它们实际执行的行动里,只有21%是真正“最优”的,而高达58%是“贪婪”行动。这“知道”和“做”之间的巨大鸿沟,简直让人哭笑不得。

AI的另外两个“小毛病”:贪婪和跟风!

除了“知行不一”,论文还系统研究了LLMs在决策时的另外两个普遍“失败模式”:

1.Greediness(贪婪): 这个最好理解了。LLM智能体就像个尝鲜者,试了几个选项后,如果发现其中一个给了点甜头(高回报),它就会超级偏爱这个选项。即使还有好多没试过的选项,即使那个“甜头”可能不是真正的最佳选择,它也倾向于反复选择已经“见过”并且感觉不错的那个。这导致它们不愿意去探索未知,行动空间覆盖率非常低。想象一下,一家餐厅只吃最开始那道菜,可能错过了招牌硬菜啊! 即使是更大的模型或者用了CoT,“贪婪”这个问题依然明显。这是因为它们对看到有回报的行动,会赋予过高的执行概率。

2.Frequency Bias(频率偏差): 这个更奇葩。小一点的LLMs(比如2B规模的)特别容易“跟风”。如果输入的历史信息里,某个行动被重复了很多次(哪怕它给的回报很低),模型就倾向于跟着选择这个行动。这就像鹦鹉学舌,或者被洗脑了一样,看到重复得多的就觉得是对的。论文发现,2B模型在这个问题上栽得很惨,越重复某个行动,它就越确信那是对的。而大一些的模型(比如27B)就好多了,基本克服了“跟风”,但还是逃不过“贪婪”的手掌心。研究人员猜测,这个“跟风”可能是在海量数据上进行“有监督预训练”留下的“后遗症”——毕竟,预训练时就是学着重复数据里的模式嘛。

给AI大佬们“治病”:强化学习微调 (RLFT) 大法!

面对这些“疑难杂症”,论文作者们提出了一种“治疗方案”:Reinforcement Learning Fine-Tuning (RLFT)。简单来说,就是把强化学习(RL)的训练方法,用在LLMs身上,而且是基于LLMs自己生成的“思考过程”(CoT)来进行。

它的基本逻辑是:让AI在环境里自己生成思考过程和行动。如果这个行动带来了好的回报,就“奖励”它产生这样的思考和行动;如果回报不好,就“惩罚”它。通过这种方式,“训练”LLM去学习那些能带来高回报的思考模式和行动策略。这就像给LLM请了个私人教练,让它在实践中学习,从自己的思考和结果中吸取经验。

“治疗”效果如何?显著提升,但仍需努力!

实验证明,RLFT这剂猛药确实管用。

降低了“贪婪”:经过RLFT的2B模型,行动的探索覆盖率提高了12%。虽然还没达到最优,但至少愿意多看看外面的世界了,不再那么死守着少数几个看过的选项。

对抗了“跟风”:RLFT有效地对抗了频率偏差,模型没那么容易被重复的历史带跑偏了。尽管在高重复频率下,“跟风”的残余影响还在。

弥合了“知行差距”:RLFT通过奖励那些能带来高回报的“思考+行动”组合,让LLM更好地把“知道”的转化为“做到”。

实战能力提升:在多臂老虎机 (MABs) 和上下文老虎机 (CBs) 任务中,RLFT显著降低了累积遗憾(也就是少做了很多错误决策)。在有状态的环境,比如文字版井字棋 (Tic-tac-toe) 中,RLFT也大幅提高了LLM的胜率,甚至能和顶级的MCTS对手打平。这说明它在更复杂的决策场景下也有潜力。

光“治疗”还不够,得加点“辅助训练”!

虽然RLFT很有效,但论文也指出,经过RLFT的模型在探索方面依然不是最优的。就像运动员,基础训练好后,还得有专项训练。于是,研究人员尝试了一些额外的“探索机制”,比如:

“上来就全试一遍”:就像UCB算法那样,一开始先把所有可能的行动都试一次。结果发现,这招超级管用!特别是对27B这种大模型,用了这招后几乎能达到最优的表现。这再次证明,AI不是不会做决定,而是需要先给它足够的信息去了解每个选项的大致情况。

ε-greedy(小概率随机探索):经典RL招数,偶尔随机选个行动。效果嘛,一般般。

探索奖励(Exploration Bonus):给那些还没尝试过的行动额外加分。这招也很灵!能显著提高探索率,并降低遗憾。这强调了“奖励设计”的重要性,得告诉AI你希望它做什么样的行为(比如多探索)。

还有一些针对LLMs的技巧,比如上下文随机化、上下文总结、自我纠正、自我一致性等等。

“思考”的重要性:不仅要有,还要给够时间!

论文还强调,“思维链”(CoT)在这个过程中起着“至关重要”的作用。它不仅能帮助LLM在做决策前进行合理的推导,还是RLFT有效性的关键。没有CoT,RLFT的效果会大打折扣。

更进一步,给AI“思考”的时间(也就是生成思考过程的Token数量上限)也很重要。思考时间太短(比如只允许生成16或64个Token),AI就没法好好组织思路,性能会很差。但如果把思考时间从256提到512个Token,性能就能显著提升,甚至能追平更大模型的水平。这说明,AI能有效利用这些额外的“思考时间”来提升决策能力。不过,多思考也有代价——训练时会消耗更多计算资源和时间。

向“学霸”取经:模仿专家行为也很香!

最后,论文还对比了传统的“模仿学习”方法。他们让LLM学习模仿UCB专家的行为,包括只模仿行动(Behavior Cloning,BC)和模仿行动+思考过程(Thought Cloning,TC)。结果发现,直接模仿专家数据训练出来的模型,在简单任务上也能达到和专家差不多的水平。这说明,如果有高质量的专家数据,“抄作业”也是个提高AI决策能力的好方法。

AI大佬也有“成长的烦恼”

总而言之,这篇论文告诉我们:

1.虽然LLMs看起来无所不知,但在做决策时,它们有自己的“人格缺陷”,比如贪婪、跟风和知行不一。

2.强化学习微调(RLFT)能有效“治疗”这些问题,提高AI的探索能力和决策表现。

3.但RLFT后的探索能力依然不够完美,需要额外的探索机制来辅助,比如“上来就全试一遍”或者给“探索奖励”。这证明,AI不是不会做决策,是需要引导和充分信息。

4.“思考过程”(CoT)对于RLFT至关重要,“思考时间”(生成预算)也需要给够。

5.直接学习模仿专家也是一条有效的捷径。

当然,目前的研究主要集中在特定模型(Gemma2)和相对简单或有限的场景下。未来还需要在更复杂、更贴近现实的环境中进一步探索。

看来,AI要成为真正的“决策高手”,还有一段路要走。它们和我们人类一样,都有需要克服的“人性弱点”(虽然是机器的),也都需要学习和训练才能变得更优秀。不过,看到AI在努力克服“知行不一”,是不是也给我们自己提了个醒呢?

好了,今天的AI八卦……哦不,AI研究解读就到这里。希望这篇不正经的科普,能让你对AI的决策能力和强化学习微调有个初步的了解!下回见到AI,别忘了它们也可能正在经历“贪婪”和“知行不一”的挣扎哦!

论文地址:https://www.alphaxiv.org/abs/2504.16078

点赞(0)

评论列表 共有 0 条评论

暂无评论
发表
评论
顶部