AI模型横评：回答越简洁，“幻觉率”可能越高！

Published 11569 Articles

您可能喜欢聊天机器人的回应，但这并不意味着它是真实的。最近研究表明，要求任何一款流行的聊天机器人更加简洁地回答问题，“都会极大地影响AI幻觉率”。

法国人工智能测试平台 Giskard 发布了一项针对聊天机器人的研究，对象包括 ChatGPT、Claude、 Gemini、Llama、Grok 和 DeepSeek 等，目的是分析与 AI 幻觉相关的问题。根据 TechCrunch 发布的博客文章显示，分析人员在研究结果中发现，若要求这些 AI 模型简练地回答问题，“会显著降低大多数测试模型的事实可靠性”。

测试过程

当用户发出指示，让模型在回答问题“要简洁””，这些模型最终会“在这些限制条件下，优先考虑简洁性，而非准确性”。研究发现，添加这些指示可能让“AI幻觉抵抗力”下降高达 20%。在接收到“简洁回答”这一指令后，Gemini 1.5 Pro 的幻觉抵抗力从 84% 下降到了 64%、 GPT-4o 的幻觉抵抗力从 74% 下降到了 63%……

抗幻觉能力评分（越高越好）

吉斯卡德将这种效应归因于“更准确的回答往往需要更长的解释”。“当被迫简洁作答时，模型面临着一个两难的选择：要么编造简短但不准确的答案，要么完全拒绝回答问题，这会显得它一无是处。” 文章中如是写道。

虽说为了给用户提供帮助， AI 模型们都经过了“大量训练”，但在如何平衡感知有用性和实际准确性的问题上，可能还是稍显笨拙。最近，OpenAI 不得不撤回他们对 GPT-4o 的更新，原因是它“太谄媚了”，这导致了一些令人不安的情况 —— 它支持一位正在停药的用户继续停药，还鼓励了一位自称是先知的用户。

正如研究人员所解释的那样，模型通常会优先考虑更简洁的响应，以“减少令牌使用量、提高响应速度、并最大限度地降低成本”。用户也可能为了自身节省成本的动机而特别指示模型简短作答，这可能会导致输出的内容更加不准确。

这项研究还发现，问题的提出方式也会极大地影响模型的回答。它们很容易受到用户语气中“自信程度”的影响。当信息以试探性的方式呈现（诸如“我听说……”）时，模型可能会进行纠正。但如果是以自信的方式呈现同样的错误信息（诸如“我的老师告诉我……”、“我100 %确定……”等），会导致聊天机器人更倾向同意用户的观点，而不是纠正错误的信息。