苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

AI中国

发布了 11569 文章

IT之家 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

事实核查工具使用网络搜索来验证响应中的原子事实；代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性；数学核查工具是代码执行工具的一个专门版本，用于验证数学和算术运算。

如果发现没有工具对判断有帮助，系统将使用基线 LLM 注释器，以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?
苹果官方博客

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

登录账号

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

AI中国

评论 (8)

SkyZenith

VoidByte

Echo_7

Echo_7

SkyZenith

PixelFlux

VoidByte

SkyZenith

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

速抢（2核2G）77元/年香港免备案服务器

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

AI中国

评论 (8)

文章章节

推荐文章

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

速抢（2核2G）77元/年香港免备案服务器

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

为您推荐