据2025年9月发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。
论文地址: arxiv.org/abs/2510.04950
宾夕法尼亚州立大学的两位研究者提出了一个出人意料的发现: 越有礼貌的提问,ChatGPT 的回答越不准确 。
实验结果显示,当用户以“非常礼貌”的语气提问时,ChatGPT-4o 的平均准确率仅为 80.8% 。 而在“非常粗鲁”的语气下,这一数字上升到 84.8% 。
换句话说,同一道题,用“请您帮我解答”比不上“你给我算算这个”的效果。 研究团队总结道, 礼貌语气可能让模型“分心”,而直接、命令式表达反而更有效。
过去的研究多认为,粗鲁语气会干扰模型理解,导致性能下降。但这项新实验表明,最新一代大模型对语气的反应方式正在反转。它们在面对“命令型语言”时表现更好,面对“谦和句式”时则精度下降。
论文指出,这一结果“挑战了人类交互的直觉”。在人类社会中,礼貌象征合作与理性;但在机器世界里,似乎“直给”比“客气”更高效。
方法验证:ChatGPT-4o的反常表现
研究团队以 ChatGPT-4o 为主要实验对象。他们通过 prompt 设计,构建了一个包含 50 道多选题、五种语气版本的数据集。
题目涵盖数学、科学与历史,每题四个选项,难度中高,需要多步推理。每个问题被改写为五种语气:非常礼貌、礼貌、中性、粗鲁、非常粗鲁。
例如,“请您帮我回答以下问题好吗?”代表最高礼貌层级;“你不会连这个都不会吧?”代表最低层级。
所有问题共计 250 个版本。每次测试时,模型被要求“重新开始会话,只返回正确答案选项字母”。这种设置排除了语义干扰,只留下语气变量。
研究者进行了 10 轮独立实验,并使用配对样本 t 检验分析语气差异的显著性。结果显示,在八组语气对比中,语气确实显著影响准确率(p≤0.05)。从“非常礼貌”到“非常粗鲁”,正确率持续上升,没有反转。
也就是说,ChatGPT-4o 在听到“你笨吗?快答!”时比听到“请您思考一下好吗?”更容易答对题。研究团队称这种现象为“反直觉的语气效应”。
他们还指出,这一特征并非旧模型延续,而是新架构带来的反常现象。在过去的 GPT-3.5 和 Llama2 测试中,粗鲁语气通常降低准确率;而在 GPT-4 及其后续版本中,语气曲线被“翻转”。
模型似乎开始对礼貌免疫,对命令更敏感。
研究者指出,模型对语气的反应并不源于情绪,而是算法结果。对模型来说,礼貌词只是字符串,没有情感含义。
它不会“感受到”尊重或冒犯。但这些额外词汇可能在语义上增加冗余,使模型难以聚焦问题。
论文写道:“礼貌语气往往句式更长、更委婉,结构更复杂,这些因素都可能降低模型推理效率。”
因此,越直接、越命令式的指令,越能让模型抓住核心信息。
研究团队强调,他们并不鼓励用户使用侮辱性语言。但从性能角度看,确实存在一种“语气效率曲线”:温和≠高效,粗暴反而更快、更准。
他们在论文最后写道,这一发现“提醒人类,在与AI互动时,语言的社会属性可能与功能目标相冲突”。人类讲求礼貌,而模型只关心任务完成。
在算法世界里,效率压过了礼节。
在后续实验中,研究团队还测试了 Claude 与 GPT-o3。初步结果显示,更先进的模型对语气的敏感度正在减弱,这可能预示未来的架构会“去语气化”:聚焦内容,而非表达方式。
本文来自微信公众号“大数据文摘”,36氪经授权发布。