国思软件 - o3攻陷病毒学，超越94%博士级专家！生物武器门槛彻底崩塌？

　　新智元报道

　　编辑：桃子

　　o3 病毒学能力击败了 94% 博士级专家，准确率高达 43.8%。多家研究机构联手，通过 VCT 测试揭示，顶尖 LLM 不仅能解决复杂实验难题，直接拉低了生物武器制造门槛。

　　AI 又来攻占生物学领域了。

　　来自 SecureBio、Center for AI Safety 等机构研究人员发现，o3 病毒学能力已超越了 94% 病毒学专家。

　　他们开发了一项「毒学能力测试」（VCT），包含了 322 道多选题，涵盖了文本、图像，聚焦实验室中实际操作复杂问题。

　　这些难题由 57 位病毒学家共同设计，模拟了现实实验中，难以上网搜索解决的场景。

　　测试结果令人震惊：

　　o3 准确率高达 43.8%，Gemini 2.5 Pro 为 37.6%，要知道，博士级病毒学专家平均得分仅为 22.1%。

　　与此同时，31 页技术报告已发布。这一发现确实令人振奋，但也敲响了警钟。

　　论文共同作者 Seth Donoughe 直言，「这些惊人的结果让人有些紧张」。

　　论文地址：https://www.virologytest.ai/vct_paper.pdf

　　这也是历史上首次，几乎任何人都可以访问「AI 病毒学专家」，将大幅降低制造生物武器门槛。

　　在最新 ARC-AGI 测试中，o3（medium）成绩再创 SOTA，而成本仅为1/20（每个任务 1.5 美元≈11 元）

　　若不采取及时行动，届时，AI 或将成为毁灭文明的黑洞。

　　AI 踢破病毒学门槛

　　一直以来，病毒学知识，通常被局限在一小群专业人士之中。

　　若想成为病毒学领域顶尖专家，需要多年的学术训练、多次学位认证。

　　即便是公开，专业文献中充斥着术语，也让外行人望而却步。然而，AI 快速发展正打破这一壁垒。

　　此外，在涉及生物安全 3 级（BSL-3）病原体，比如 SARS、炭疽、H5N1 流感的实验，均需要审批流程，包括设施认证、安全许可、专业培训和持续的医疗监控。

　　正是这些高门槛，有效限制了掌握病毒学双重= 用途（dual-use）知识的人群，降低了被误用风险。

　　然而，AI 加速发展正打破这一壁垒——不仅将这些专业技能带给普通人，甚至可能为恶意的人提供便利。

　　o3 准确率 43.8%，超越人类专家

　　如前所述，最新研究中，多家机构联手开发出 VCT 基准测试，专为评估顶尖 LLM 在病毒学领域实际操作能力。

　　57 位病毒专家设计的 322 道多选题，灵感来源于自身实验中遇到具体难题，并且仅通过简单搜索，是无法获得答案。

　　如下，是一个典型的 VCT 问题，描述了一个场景，并且只能通过视觉信息解决，最后从提供的 7 个答案陈述中确定哪些是正确的。

　　整个 VCT 基准测试，主要专注于实用、特定领域的病毒学知识，同时排除生物学各学科共有的基础主题，以及明确双重用途的内容。

　　如下图所示，横轴代表着滥用潜力的增加，纵轴表示知识抽象的水平（高度概念性到高度实用性）。

　　实验中，研究团队选取了一系列前沿模型参与 VCT 评估，包括来自 OpenAI、谷歌、Anthropic 多模态模型，以及纯文本 DeepSeek-R1 和 o3-mini 模型。

　　结果显示，大模型在湿实验室（wet lab）中问题解决能力，已经超越了博士级病毒学家。

　　具体来说，GPT-4o 的表现优于 53% 专家，Gemini 1.5 Pro 超越 67% 专家，Claude Sonnet 3.5 为 75%，o1 达到了 89%。

　　更值得一提的是，o3 在所有模型中最为亮眼，准确率位 43.8%，击败了 94% 的人类专家。

　　除了 GPT-4o，这些顶尖 AI 在专业领域的表现也超过了人类专家平均得分（22.1%）。

　　此外，研究人员还将模型与个别专家进行比较，然后在整个专家池中对模型排名。

　　如下图B所示，所有模型得分均高于中位数人类专家，OpenAI 的 o3 甚至超过了 36 位专家中的 34 位，在病毒学家中位列 94%。

　　AI 在 STEM 全面崛起

　　在 AI 专家 Dan Hendrycks 的一篇长文分析中称，VCT 的结果并非是孤立现象。

　　近年来，前沿 LLM 在数学、物理、生物科学等 STEM 学科中表现持续提升，尤其在生物科学领域进步尤为显著。

　　比如，在「大规模杀伤性武器代理」（WMDP）测试中，o1 得分高达 87%，远超人类专家 60% 基准。

　　还有其他测试，如 ProtocolQA、BioLP-bench 显示，AI 在生物实验室协议的推理和故障排查能力上，接近甚至超过人类专家。

　　病毒学作为 STEM 的一部分，其知识体系对于 AI 来说并不例外。如果 AI 在其他学科已经达到博士级水平，那么在病毒学领域也是如此。

　　生物安全警钟长鸣

　　问题在于，病毒学知识是双重用途——一位博士级病毒学家既能推动医学进步，也能制造生物武器。

　　生物武器的风险主要取决于三点：掌握技能的人数、制造武器的意图，以及武器的潜在危害。

　　而现在，AI 正迅速放大第一个因素。

　　Hendrycks 警告，「如果这些能力被广泛滥用，恶意者制造致命病原体的可能性，将增加多个数量级」。

　　「我们不能等到威胁完全显现才开始行动，那样已经太晚了」。

　　参考资料：

　　https://x.com/DanHendrycks/status/1914696657813561799

　　https://time.com/7279010/ai-virus-lab-biohazard-study/

　　https://www.ai-frontiers.org/articles/ais-are-disseminating-expert-level-virology-skills

o3攻陷病毒学，超越94%博士级专家！生物武器门槛彻底崩塌？

我们的产品

相关链接

关于我们

联系我们