
北京大学推出新基准评测PHYBench,挑战AI物理推理能力!
最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同,PHYBe
最近,北京大学物理学院联合多个院系,推出了一项名为 “PHYBench” 的全新评测基准,旨在检验大模型在物理推理上的真实能力。该项目由朱华星老师和曹庆宏副院长主导,汇聚了来自物理学院和其他学科的200多名学生,其中不少人曾在全国中学生物理竞赛中获金牌。
PHYBench 设计了500道精心制作的高质量物理题,这些题目涵盖高中物理、大学物理及物理奥林匹克竞赛的各个层面。与传统评测基准不同,PHYBench 不仅考察模型的答案是否正确,更引入了一种创新的评分方式 —— 表达式树编辑距离(EED Score)。这一方法通过比较模型答案与正确答案的数学表达式结构,能够更细致地反映模型的推理能力。与依赖于简单对错的传统评分方法相比,EED Score 提供了连续的分数,更能体现模型之间的差异。
图源备注:图片由AI生成,图片授权服务商Midjourney
在一场 “人机大战” 中,81名北大学子与顶尖 AI 模型进行较量。结果显示,最先进的 Gemini2.5pro 模型仅答对36.9% 的题目,而人类专家的平均正确率高达61.9%,显示出人类在物理推理上的明显优势。PHYBench 的研究团队对模型的错误进行了深入分析,将其推理过程分为物理感知和鲁棒推理两个关键环节,揭示了现阶段 AI 在物理推理中的瓶颈。
展望未来,PHYBench 的目标不仅是评估 AI 的物理理解能力,更希望引领 AI 在探索物理世界的潜力上取得突破。研究团队计划不断扩展数据集,挑战人类尚未解决的科学难题,推动 AI 系统朝着更高的认知能力发展。
发表评论 取消回复