谷歌 DeepMind 通过强化学习微调提升 AI 决策能力
近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。随着大数据的应用,现有的语言模型已经展现出处理文本的超越能力,甚至能够在交互环境中做出基于知识的决策。然而,这些模型在实际决