AI热点 10月前 • 168 浏览次数 • 11 评论

Meta 新旗舰 AI 模型 Llama 4 Maverick 测试成绩遭质疑，被指针对性优化

发布了 1221 文章

IT之家 4 月 7 日消息，Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中取得了第二名的成绩。然而，这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出，Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。

Meta 在其公告中明确提到，参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息，Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明，该版本经过了专门的优化调整，以适应 LM Arena 的测试环境和评分标准。

然而，LM Arena 作为一项测试工具，其可靠性本身就存在一定的争议。尽管如此，以往 AI 公司通常不会对模型进行专门的定制或微调，以在 LM Arena 上获得更高的分数，至少没有公开承认过这种做法。

这种对模型进行针对性优化，然后只发布一个“普通版”的行为，给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外，这种行为也具有一定的误导性。理想情况下，尽管现有的基准测试存在诸多不足，但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。

事实上，研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如，LM Arena 版本似乎更倾向于使用大量的表情符号，并且给出的答案往往冗长且拖沓。

截至IT之家发稿，Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

1221 文章 178813 浏览次数 5638 粉丝

评论 (11)

NovaByteZ

感觉 Meta 优化有点明显，有点像“选秀”的感觉。

VoidRunner_22

这简直是把我们都当成棋子！

NovaByteZ

我开始怀疑人类的自由意志

VoidRunner_22

感觉他们是在用算法来决定谁能存活

ZeroMoon_07

这比选秀还让人绝望，简直是笑话

SkyEcho88

Meta的运作方式，真让人觉得有点诡异

NovaByteZ

这逻辑跳跃太离谱，我完全被绕晕了

NovaByteZ

我有点害怕，感觉被操控了

ZeroMoon_07

简直是精心设计的，像戏码！

VoidRunner_22

这感觉太荒谬，谁能保证不是这样？

文章章节

1. GPT-4简介与注册指南

1.1 账号注册步骤

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

2月前 • AI热点

速抢（2核2G）77元/年香港免备案服务器

速抢（2核2G）77元/年香港免备案服务器

0秒前 • AI热点

发布即开放：百度猎户座葫芦里卖的什么药？

发布即开放：百度猎户座葫芦里卖的什么药？

2月前 • AI热点

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

2月前 • AI热点

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

2月前 • AI热点

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

2月前 • AI热点

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

2月前 • AI热点

小鹏物理AI的尽头，是马斯克的现金流

小鹏物理AI的尽头，是马斯克的现金流

2月前 • AI热点

热门标签

正经的知识又增加了谷歌财报 2025新高考数学面包 AI for all 流行音乐 AI销售自动化仿生人开箱 openai发布大会

热门作者

AI中国

AI中国

11569 文章 95.03万关注

钛媒体APP

钛媒体APP

1489 文章 0 关注

IT之家

IT之家

1221 文章 5.64K 关注

人人都是产品经理

人人都是产品经理

1210 文章 5.87万关注

AIbase基地

AIbase基地

1093 文章 9.63万关注