DeepSeek-R1登顶Nature,8位专家严审通过, 大模型「交卷时刻」来了

  新智元报道

  编辑:元宇

  DeepSeek-R1 亮相 Nature,在此之前,几乎没有一个主流大模型在科研期刊中经过独立同行评审。在评审过程中,DeepSeek-R1 对论文进行了重要修订,增加了对 R1 的安全性评估等内容。此次同行评审,被视作 AI 行业迈向更高透明度和可复现性的关键一步。

  近日,DeepSeek-R1 登上 Nature 封面,标志着中国 AI 技术获得了来自国际的顶级认证。

  Nature 高度赞扬了 DeepSeek-R1,表示它已通过同行评审,打破了主流大模型未经过独立同行评审这一国际惯例。

  同时 Nature 也在社论中鼓励其他公司,把大模型送来进行同行评审。

  AI 行业亟需重视同行评审

  Nature 认为,除了 DeepSeek-R1 之外,当前主流的大模型,几乎没有一个是在科研期刊中经过独立同行评审的。

  这种缺位,目前在 AI 行业已经十分明显。

  「同行评审,能够帮助理清这些模型的工作机制,也有助于判断它们是否真的如宣传中所说那样有效。」

  DeepSeek 正在改变着一切,它已将 R1 模型细节正式发表在 Nature 上。

  作为开放权重模型,用户无法获得 R1 的全部源代码和训练数据,但可以自由下载、使用、测试甚至基于它进行再开发。

  自今年 1 月在 Hugging Face 上发布以来,R1 在平台上深受用户关注和喜爱。最新数据显示,近 30 天 R1 下载量接近 42 万。

  如今,该模型已经通过了 8 位专家的评审,评估内容涵盖其创新性、方法和稳健性。

  这些评审意见,与作者的回复一并发表,这是 AI 行业迈向更高透明度和可复现性的关键一步。

  对于当前充斥着未经验证的炒作的行业现状,这种实践尤为可贵。

  DeepSeek-R1 论文,与今年早些时候发布的初版相比,进行了重大的修订。

  包括首次披露了 R1 的训练成本、训练技术细节,增加了对 R1 的安全性评估,以及回应初始发布阶段,外部关于「蒸馏方法」的质疑。

  让 AI 创新更容易被接受

  同行评审,是一种更开放的推广方式。

  它营造了更透明、更客观也更具公信力的一种研讨与推广方式,在推动行业交流和进步的同时,也让企业的创新成果更容易为更多人所接受。

  比如,在 R1 这篇论文中,DeepSeek 重点介绍了他们是如何训练 R1 学会「推理」的。

  研究团队采用了一种高效自动化的强化学习方法:「试错加奖励」的流程。

  在这一过程中,模型会学习诸如「自我验证思路」的推理策略,且不依赖人类既有的方法论。

  此前,DeepSeek 发布了一篇预印本论文,介绍了他们的训练方法及模型在各类评测基准上的表现。

  大模型厂商,经常会通过官方技术博客、评测报告、模型卡(system card)等方式介绍大模型训练方法及模型在各类评测基准上的表现,但这类技术文档的信息量和透明度常常参差不齐。

  同行评审,很好地弥补了这方面的缺点,它不是一个单方面输出的信息披露行为,而是一个公开的互动过程。

  它是一个由独立第三方(如期刊编辑、研究者等)组织的互动过程。

  在这个过程中,第三方的外部专家,可以向作者(开发者)提出质疑、要求补充信息,从而促使对方进一步论证自己的观点或补充内容。

  这一过程,将大大提升论文的清晰度和可信度。

  这也意味着,AI 开发者的成果能更好地被各界所接纳。

  向「刷榜」和「自评」说不

  同行评审,避免了开发者「刷榜」「自己打分」等主观夸大的倾向,比如专门挑选有利于自家模型的基准进行展示等。

  更有甚者,一些评测还可以被「训练数据污染」——比如,让模型接触到测试题目,从而影响其真实能力评估。这无异于作弊。

  在 R1 的评审过程中,同样也有评审专家质疑,R1 是否存在「训练数据污染」问题。

  对此,DeepSeek 提供了相应的防范措施说明,还补充了模型发布后才公开的基准测试的额外评估。

  此外,同行评审也促成了 DeepSeek-R1 论文的一些关键修订。其中,一个重要修改,就是补充了关于模型安全性的说明。

  R1 的审稿人指出,原论文缺乏关于安全测试的信息,例如并未评估模型被滥用的难易程度。

  针对这一问题,DeepSeek 补充了详细内容,包括一节专门说明模型安全性评估,并将其与其他模型进行了对比。

  此外,针对同行评审意见,DeepSeek 还减少了描述中的个性化表述,并增加了对技术细节的澄清,包括模型训练所使用的数据类型及其安全性。

  为 AI 增加「透明度」

  外部审查,为 AI 行业增加了「透明度」,也为行业的发展,提供了更健康的环境。

  这一点,正逐渐成为越来越多 AI 公司的共识。

  上个月,OpenAI 与 Anthropic 就互测了对方的大模型,并因此发现了原团队未曾察觉的问题。

  今年 7 月,Mistral AI 也联合外部顾问机构,对其模型的环境影响进行了评估,希望以此来提升行业的报告透明度。

  在 AI 迅猛发展,影响日益广泛的当下,这种积极的行业转变,无疑是十分重要的。

  Nature 表示,目前的大部分做法,仍缺乏同行评审的独立性,同行评审仍是当前最可信赖的验证机制。

  Hugging Face 的 Lewis Tunstall,是 DeepSeek-R1 论文的评审者之一,他认为 DeepSeek-R1 是最早经历同行评审流程的大型 LLM,这是一个非常好的先例:

  「若不公开大部分研发过程,就很难评估这些系统是否构成风险。」

  俄亥俄州立大学 AI 研究员 Huan Sun 表示,经历严格的同行评审过程,有助于验证模型的有效性和实用性,并呼吁其他公司也应该这样做。

  同行评审≠泄露商业机密

  同行评审,会不会泄露商业机密?

  大模型训练投入极高,很多 AI 公司都担心,如果商业机密被竞争对手抄了去,自己将处于不利的竞争地位。

  但以发布在 Nature 上的谷歌 Med-PaLM 模型为例,即使是闭源模型,也完全可以接受同行评审。

  而且,同行评审,是推动 AI 行业回归理性、抵御炒作的有效手段。

  Nature 认为,无法验证的夸大宣传,才是对社会的真实风险。因此,Nature 主张未来会有更多 AI 公司勇于将自家模型提交至学术发表流程中进行审核。

  同行评审不等于泄露公司机密,它是验证公司创新成果的一道必要的程序。

  它让我们的所有主张,都必须经过实证的洗礼,而不是依靠单纯的主观臆想。

  参考资料:

  https://www.nature.com/articles/d41586-025-02979-9