学术指导服务,正当时......期刊天空网是可靠的职称论文与著作出书咨询平台!

近 3 万投稿中突围!北大物理本科生成果登AI顶会NeurIPS

时间:所属分类:学术成果常识浏览:1

  近期,北京大学物理学院传来喜讯,一支以本科生为核心的研究团队所发表的大模型物理学基准测试 PHYBench 论文,成功被人工智能顶级会议 NeurlPS2025 接收。NeurIPS 作为全球人工智能领域最具影响力的三大顶级会议之一,2025 年度论文投稿数量接近 30,000 篇,然而近年来其录取率不足 25%,竞争态势极为激烈,在此背景下,北大团队的入选显得尤为难得。​

  在人工智能技术日新月异的当下,大模型在专业领域的能力逐渐向人类水平靠拢。在此情形下,如何全面且精准地评估 AI 模型的科学能力与推理能力,成为了亟待解决的关键问题。基于此,北京大学物理学院的团队勇担学科责任,构建了专门用于测试物理推理能力的基准测试 ——PHYBench。​

  PHYBench 覆盖了力学、热学、光学、电磁学以及近代物理这五大物理领域,精心挑选了 500 余道题目,这些题目均要求模型进行多步推理解答。为保障每一道题评测的公平性与科学性,团队采用了模型闭环测试与人类解题验证相结合的方式。测试结果显示,在物理基准测试中,模型的得分与模型综合能力紧密相关,而当前的大模型在物理推理方面存在明显短板。在众多模型中,表现最佳的模型准确率仅为 45.8%,与之形成鲜明对比的是,人类专家的准确率达到了 61.9%,这清晰地表明 AI 在物理学深度推理方面与人类专家仍存在显著差距。​

PHYBench模型

图例中的 New Models 表示论文发表(5 月 18 日)之后推出的模型

  PHYBench 论文一经发表便备受关注,在 alphaXiv 上连续两周位居热门论文榜单榜首,阅读量累计超过 15 万次;在 Hugging Face 上,该论文月下载量超过 4000 次,荣登新兴数据集榜单第三名,并且多次被同赛道的其他研究引用。目前,团队已将部分试题和评测代码开源,为相关社区的进一步研究筑牢基础。团队开发的 “表达式编辑距离 (EED)” 算法,已被上海人工智能实验室的工作 CMPhysBench 复用。可以说,PHYBench 为 AI 模型的物理推理能力提供了系统的评估基准,为 AI 与基础科学的深度融合明确了发展方向。​

  PHYBench 论文的作者阵容强大,包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等 49 位同学,其中部分同学凭借此成果获得了进入人工智能头部企业实习的宝贵机会。论文的指导老师汇聚了北京大学物理学院理论物理研究所的朱华星教授和曹庆宏教授,北京大学智能学院的张牧涵助理教授、杨耀东助理教授,以及北京计算科学研究中心的罗民兴院士。​

  此次研究成果,是北京大学物理学院在人工智能时代高层次人才培养改革的一次重要尝试,也是教育部《物理学人工智能教育专用大模型》建设项目的首个重要成果。此外,本项目还得到了北京大学物理学院学生会的大力协助,以及北京大学教务部本科教改项目、国家自然科学基金、教育部物理学 101 计划和亚洲青年科学家基金的支持。

最新分区查询入口