JavaScript is required

首个“科学家打分”擂台上线:o3横扫、DeepSeek稳居第四,但机器依然读不懂学者的心

2025-07-16 11:47:05

 

如果说 Chatbot Arena 把大语言模型拉进了“街头格斗”,那么今天揭幕的 SciArena 就是直接把擂台搬进实验室——全球 23 款顶级模型首次在真·科研场景里“过招”,由一线研究生匿名投票,胜负全凭学术含金量。结果既惊喜又扎心:OpenAI 的 o3 几乎碾压夺冠,国产 DeepSeek 挤进前四,但所有 AI 在“猜科学家到底喜欢什么答案”这项任务上依旧不及格。

从“写论文神器”到“科学裁判”:科研人需要一把新尺子

AI 写论文早已不是新闻。根据 ZIPDO 2025 教育报告,70% 的研究实验室已经把大模型当同事用,五年内 AI 辅助论文数量暴涨 150%。但问题随之而来:传统 benchmark 像高考选择题,科研任务却像开卷论述题——需要背景知识、推理链条、精准引文,还要对学科暗号。一张静态试卷显然测不出真功夫。

于是,Ai2、耶鲁、NYU 三家机构联手,把“Chatbot Arena”那套匿名、双盲、众包的机制搬进学术圈,取名 SciArena。平台只做一件事:让科学家亲自给 AI 的回答打分,看看到底谁更懂科研。

23 位选手、102 位评委、13000 张选票

上线四个月,SciArena 收集了来自 102 名在读研究生的 13000+ 张有效投票,人均手握两篇以上已发表论文。投票前,每位评委接受 1 小时统一培训,保证“口味”一致。最终数据一致性高得惊人(κ=0.91),几乎可视为“黄金标准”。

平台流程极简:用户抛出一个真实科研问题 → 系统从 4000 万篇论文里召回最相关文献 → 两个随机模型各自生成长答案(带引文)→ 纯文本匿名展示 → 评委投票。整个过程不透露模型身份,避免品牌滤镜。

成绩单:o3 遥遥领先,DeepSeek 成国产之光

综合 Elo 排行榜:

  1. 1. OpenAI o3(断崖领先)
  2. 2. Claude-4-Opus
  3. 3. Gemini-2.5-Pro
  4. 4. DeepSeek-R1-0528
  5. 5. LLaMA-4-Darwin

细分赛道更有趣:

  • 医学健康:Claude-4-Opus 凭医学常识库险胜 o3
  • 自然科学:DeepSeek-R1-0528 表现最亮眼,物理、化学题几乎追平 o3
  • 工程交叉:Gemini-2.5-Pro 的公式推导最受青睐

Nature 在头版评论中把 SciArena 称为“观测大模型知识结构的新窗口”,直言“静态基准已死,动态众包才是未来”。

尴尬彩蛋:AI 当裁判,准确率仅 65%

研究团队顺手做了件“套娃”实验:让大模型代替人类评委去猜“科学家会选谁”。结果最好的 o3 只有 65.1% 命中率,Gemini-2.5-Flash 直接掷硬币水平。相比之下,通用场景下的 AlpacaEval 能轻松上 70%。结论很直白:科研语境的偏好更难捉摸,推理链条、引文质量、学科黑话都是机器盲区

不过也有小亮点:带有显式推理模块的模型(如 o4-mini、DeepSeek-R1)比基线版高 2–3 个百分点,说明“会思考”的 AI 至少摸到了科研评价的门槛。

写在最后:尺子有了,天花板在哪?

SciArena 的出现,相当于给科研 AI 发了一张“随堂测验卷”——题目实时更新、评委是真学者、答案没有标准模板。o3 的领先证明“大力出奇迹”依旧有效,DeepSeek 的第四让我们看到国产模型的后劲。但更关键的是,它第一次把“科学家到底想要什么”量化为可追踪的数据。

下一步,团队计划开放 API,允许任何实验室上传新模型“打擂”。或许很快,决定一篇 AI 生成综述是否靠谱的,不再是营销文案,而是一条实时刷新的 Elo 曲线。

 

根据您提交的需求,将有人与您联系,定制专属解决方案