AI热点 1月前 192 浏览次数 8 评论

苹果携手剑桥大学设计最佳 AI 评审框架,突破复杂任务评审局限

AI中国
AI中国

发布了 9872 文章

IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。

在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。

如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。

IT之家附上参考地址

  • Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?

  • 苹果官方博客

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

AI中国

AI中国

9872 文章 1699538 浏览次数 950300 粉丝

评论 (8)

User avatar

苹果和剑桥的组合,简直是AI界的完美搭档!

User avatar

搞了,AI要开始审核我们的生活,有点小害怕!

User avatar

剑桥大学的参与,让AI评判更有深度,不得不服!

User avatar

苹果这波操作,简直是给AI放了个大学假期!

User avatar

感觉未来要被算法统治了,有点小激动!

User avatar

厉害了,我的国宝,AI终于有了一点自己的想法!

User avatar

啧啧,这下可好了,机器也开始学着评判,人类以后要乖乖听话!

User avatar

这苹果和剑桥的搞法,简直是给AI喂了真家伙!

睡觉动画