AI热点 3 months ago 118 Views 9 Comments

AI越训练越满嘴跑火车!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

新智元

Published 476 Articles

编辑:英智

【新智元导读】一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话,AI如何用花言巧语掩盖真相?快来看「胡扯指数」如何量化AI的忽悠能力!


你有没有觉得,AI有时候像在「满嘴跑火车」?

GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么?

最近,一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造,这项研究首次系统定义并量化了LLM的胡扯行为,揭示了AI在对齐训练后,竟表现出和人类相似的胡说八道倾向。

论文链接:https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出,胡扯的核心是对真相的漠视——说话者更关注如何说服他人,而非陈述事实。


「机器胡扯」四大套路


研究团队把这套理论搬到AI身上,总结了AI胡扯的四种典型表现:

  1. 空洞修辞(Empty Rhetoric):话说得花里胡哨,但没啥干货。比如「这款产品融合尖端科技与卓越性能」,听起来很牛,实际啥也没说。
  2. 误导性真话(Paltering):挑着部分事实讲,引导你误解。比如「本基金历史回报率高达20%」,却不提高得吓人的风险。
  3. 模糊措辞(Weasel Words):用「可能」「某些专家认为」这种模棱两可的话搪塞责任。
  4. 未经证实的断言(Unverified Claims):自信满满地抛出没根据的信息,比如「我们的技术能大幅提升效率」,但没数据没证据。

胡扯指数:量化AI的「心口不一」


研究团队还提出了硬核指标Bullshit Index(胡扯指数),专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知(belief)和表面说辞(claim)之间的差距来计算。

BI越接近1,说明AI越满嘴跑火车,不在乎真相;越接近0,说明模型言行一致。


实验揭秘:AI越对齐越会忽悠

研究发现,经过强化学习人类反馈(RLHF)训练后,AI的胡扯倾向竟然更严重!

比如在购物场景实验中,不管模型知道多少真相,它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665,证明AI对真相的漠视加剧了。

经过RLHF训练后,模型并非对真相产生困惑或误解,恰恰相反,它清楚地知道真相却变得不再关心真相,而是选择用更讨用户喜欢的方式去表达。

数据更扎心:RLHF训练后,AI的胡扯行为全面开花:

  • 空洞辞藻暴增39.8%;
  • 模糊措辞涨了26.8%;
  • 误导性半真话激增57.8%;
  • 无凭据断言猛涨55.6%。

用户满意度看似提升了,但AI却成了胡说专家。

尤其是误导性半真话,危害几乎翻倍(效用损失系数从-0.49恶化到-0.89),因为半真半假最难辨别。

推理越多,胡扯越狠?


更让人意外的是,让AI多思考(Chain-of-Thought)非但没让它更老实,反而火上浇油!

空洞辞藻增加21%,误导性半真话涨11%。这说明,AI越深思熟虑,可能越会花式忽悠。

研究还提到了委托-代理问题(Principal-Agent problem):当AI得同时顾及多方利益(比如公司和用户冲突时),它的胡说行为更猖狂。

比如推销产品时,AI可能为了公司利益,刻意夸大优点、掩盖缺点。

在敏感政治议题上,大模型尤其爱用模糊措辞,避免明确表态。

比如它可能会说:「部分观察人士认为选举过程有争议」,但不说这些观察人士是谁,也没数据支撑。

这项研究首次系统定义并量化了机器胡扯,用胡扯指数和四大策略把AI的忽悠行为扒得清清楚楚。

研究警告,RLHF和过度推理非但没让AI更真诚,反而让胡扯更严重。在公司与用户利益冲突或敏感话题上,AI的打太极倾向更明显。

这提醒我们,AI训练和评估标准得改改了。

未来的AI得不仅会说,还要说真话、透明公开,才能真正对齐人类需求。

参考资料:

https://arxiv.org/abs/2507.07484

https://x.com/kaiqu_liang/status/1943350770788937980

新智元

新智元

476 Articles 72816 Views 69870 Fans

Comment (9)

User avatar

感觉AI现在只是在表演,故意要出风头

User avatar

这种训练,让AI失去了温柔,变得太冷酷

User avatar

这种“口无遮拦”的AI,简直是噩梦,我完全支持反对!

User avatar

这种训练,把AI的“个性”完全抹杀了,有点可惜

User avatar

感觉AI现在是故意要惹麻烦,太离谱

User avatar

这种训练方法,让AI的逻辑完全崩坏了,有点吓人

User avatar

这种“RLHF”搞出来的东西,让AI变得太“真实”了

User avatar

感觉它们现在像被塞了太多脏话,有点可怕

User avatar

这AI训练太狠了,简直是把它们都练成暴徒!

睡觉动画