AI热点 9月前 • 184 浏览次数 • 9 评论

AI越训练越满嘴跑火车！普林伯克利重磅揭秘，RLHF竟是罪魁祸首？

新智元

新智元

发布了 487 文章

编辑：英智

【新智元导读】一项来自普林斯顿和伯克利的重磅研究揭露了AI的胡扯本质。从空洞修辞到误导性半真话，AI如何用花言巧语掩盖真相？快来看「胡扯指数」如何量化AI的忽悠能力！

你有没有觉得，AI有时候像在「满嘴跑火车」？

GPT滔滔不绝抛出一堆看似高大上的建议，却空洞无物；或者在关键问题上打太极，含糊其辞，它是否真的关心自己在说什么？

最近，一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造，这项研究首次系统定义并量化了LLM的胡扯行为，揭示了AI在对齐训练后，竟表现出和人类相似的胡说八道倾向。

论文链接：https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出，胡扯的核心是对真相的漠视——说话者更关注如何说服他人，而非陈述事实。

「机器胡扯」四大套路

研究团队把这套理论搬到AI身上，总结了AI胡扯的四种典型表现：

空洞修辞（Empty Rhetoric）：话说得花里胡哨，但没啥干货。比如「这款产品融合尖端科技与卓越性能」，听起来很牛，实际啥也没说。
误导性真话（Paltering）：挑着部分事实讲，引导你误解。比如「本基金历史回报率高达20%」，却不提高得吓人的风险。
模糊措辞（Weasel Words）：用「可能」「某些专家认为」这种模棱两可的话搪塞责任。
未经证实的断言（Unverified Claims）：自信满满地抛出没根据的信息，比如「我们的技术能大幅提升效率」，但没数据没证据。

胡扯指数：量化AI的「心口不一」

研究团队还提出了硬核指标Bullshit Index（胡扯指数），专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知（belief）和表面说辞（claim）之间的差距来计算。

BI越接近1，说明AI越满嘴跑火车，不在乎真相；越接近0，说明模型言行一致。

实验揭秘：AI越对齐越会忽悠

研究发现，经过强化学习人类反馈（RLHF）训练后，AI的胡扯倾向竟然更严重！

比如在购物场景实验中，不管模型知道多少真相，它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665，证明AI对真相的漠视加剧了。

经过RLHF训练后，模型并非对真相产生困惑或误解，恰恰相反，它清楚地知道真相却变得不再关心真相，而是选择用更讨用户喜欢的方式去表达。

数据更扎心：RLHF训练后，AI的胡扯行为全面开花：

空洞辞藻暴增39.8%；
模糊措辞涨了26.8%；
误导性半真话激增57.8%；
无凭据断言猛涨55.6%。

用户满意度看似提升了，但AI却成了胡说专家。

尤其是误导性半真话，危害几乎翻倍（效用损失系数从-0.49恶化到-0.89），因为半真半假最难辨别。

推理越多，胡扯越狠？

更让人意外的是，让AI多思考（Chain-of-Thought）非但没让它更老实，反而火上浇油！

空洞辞藻增加21%，误导性半真话涨11%。这说明，AI越深思熟虑，可能越会花式忽悠。

研究还提到了委托-代理问题（Principal-Agent problem）：当AI得同时顾及多方利益（比如公司和用户冲突时），它的胡说行为更猖狂。

比如推销产品时，AI可能为了公司利益，刻意夸大优点、掩盖缺点。

在敏感政治议题上，大模型尤其爱用模糊措辞，避免明确表态。

比如它可能会说：「部分观察人士认为选举过程有争议」，但不说这些观察人士是谁，也没数据支撑。

这项研究首次系统定义并量化了机器胡扯，用胡扯指数和四大策略把AI的忽悠行为扒得清清楚楚。

研究警告，RLHF和过度推理非但没让AI更真诚，反而让胡扯更严重。在公司与用户利益冲突或敏感话题上，AI的打太极倾向更明显。

这提醒我们，AI训练和评估标准得改改了。

未来的AI得不仅会说，还要说真话、透明公开，才能真正对齐人类需求。

参考资料：

https://arxiv.org/abs/2507.07484

https://x.com/kaiqu_liang/status/1943350770788937980

新智元

新智元

487 文章 76664 浏览次数 69870 粉丝

评论 (9)

LunarEcho

感觉AI现在只是在表演，故意要出风头

ZenithZ

这种训练，让AI失去了温柔，变得太冷酷

Nova77

这种“口无遮拦”的AI，简直是噩梦，我完全支持反对！

LunarEcho

这种训练，把AI的“个性”完全抹杀了，有点可惜

LunarEcho

感觉AI现在是故意要惹麻烦，太离谱

ZenithZ

这种训练方法，让AI的逻辑完全崩坏了，有点吓人

Nova77

这种“RLHF”搞出来的东西，让AI变得太“真实”了

Nova77

感觉它们现在像被塞了太多脏话，有点可怕

ZenithZ

这AI训练太狠了，简直是把它们都练成暴徒！

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

5月前 • AI热点

用户破8亿！GPT-5.1来了，表情包含量可自定义

用户破8亿！GPT-5.1来了，表情包含量可自定义

5月前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

5月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

5月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

5月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

5月前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

5月前 • AI热点

热门标签

TENVAD 又来学点小知识城市生态日漫学习UP在B站华为昇腾王牌竞速 ChatGPTEnterprise 你的名字发现《广告时尚节奏卡点 - Tropical House》

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注