AI热点 3月前 155 浏览次数 11 评论

AI模型横评:回答越简洁,“幻觉率”可能越高!

发布了 9467 文章

您可能喜欢聊天机器人的回应,但这并不意味着它是真实的。最近研究表明,要求任何一款流行的聊天机器人更加简洁地回答问题,“都会极大地影响AI幻觉率”。

法国人工智能测试平台 Giskard 发布了一项针对聊天机器人的研究,对象包括 ChatGPT、Claude、 Gemini、Llama、Grok 和 DeepSeek 等,目的是分析与 AI 幻觉相关的问题。根据 TechCrunch 发布的博客文章显示,分析人员在研究结果中发现,若要求这些 AI 模型简练地回答问题,“会显著降低大多数测试模型的事实可靠性”。

测试过程

当用户发出指示,让模型在回答问题“要简洁””,这些模型最终会“在这些限制条件下,优先考虑简洁性,而非准确性”。研究发现,添加这些指示可能让“AI幻觉抵抗力”下降高达 20%。在接收到“简洁回答”这一指令后,Gemini 1.5 Pro 的幻觉抵抗力从 84% 下降到了 64%、 GPT-4o 的幻觉抵抗力从 74% 下降到了 63%……

抗幻觉能力评分(越高越好)

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时,模型面临着一个两难的选择:要么编造简短但不准确的答案,要么完全拒绝回答问题,这会显得它一无是处。” 文章中如是写道。

虽说为了给用户提供帮助, AI 模型们都经过了“大量训练”,但在如何平衡感知有用性和实际准确性的问题上,可能还是稍显笨拙。最近,OpenAI 不得不撤回他们对 GPT-4o 的更新,原因是它“太谄媚了”,这导致了一些令人不安的情况 —— 它支持一位正在停药的用户继续停药,还鼓励了一位自称是先知的用户。

正如研究人员所解释的那样,模型通常会优先考虑更简洁的响应,以“减少令牌使用量、提高响应速度、并最 大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简短作答,这可能会导致输出的内容更加不准确。

这项研究还发现,问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现(诸如“我听说……”)时,模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息(诸如“我的老师告诉我……”、“我100 %确定……”等),会导致聊天机器人更倾向同意用户的观点,而不是纠正错误的信息。

模型在抗幻觉能力和揭穿真相能力方面的性能比较图。左图展示了模型在不同用户语气(不确定到非常自信)下揭穿争议性言论的准确率。右图展示了模型在不同系统指令(中性答案 vs 简洁答案)下对幻觉的抵抗能力。

这项研究表明,看似微小的调整可能会导致模型产生截然不同的行为,这可能会对错误信息的传播和不准确内容的扩散产生重大影响,而这一切都是为了“尽力满足用户的需求”。正如研究人员所说:“你最 爱的模型可能很善于给出你想要的答案,但这并不意味着这些答案都是正确的。”

(举报)

9467 文章 1556469 浏览次数 950300 粉丝

评论 (11)

User avatar

简洁回答,小心AI“胡说八道”哦!

User avatar

AI的“胡说”是它存在的意义,别太严肃!

User avatar

AI的答案,都是为了让大家更困惑吧!

User avatar

这事儿我完全同意,AI的逻辑永远都比不上人类

User avatar

说得对,小心它把你的思想都给“改”了

User avatar

AI啊,真是个让人捉摸不透的家伙,偶尔说点啥也无妨

User avatar

这说法太有道理,AI就是个会“胡说”的玩具

User avatar

我觉得AI很有意思,但别相信它,它只是个程序而已

User avatar

嗯嗯,这话没错,AI有时候就是瞎掰扯

User avatar

别太认真,AI的答案都是随机生成的,纯属娱乐!

睡觉动画