金磊发自凹非寺
量子位 | 公众号 QbitAI
谷歌拿下 IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现在可以用起来了。
根据谷歌 DeepMind 的最新消息,这个模型已经在 Gemini App 中推出。
并且这个发布的版本,跟拿下 IMO 金牌的版本还有略微的区别。
之前的模型需要好几个小时才能解决复杂的数学问题,但 App 中发布的版本,速度会更快,实用性也会更强。
但相对的,实力定然不如之前的“完全体”,不过同样是拿 IMO’25 的试题实验,可以达到铜牌的水平。
DeepMind 在发布 Gemini 2.5 DeepThink 之际,还拉来了数学家 Michel van Garrel 来站台:当我问它一个猜想,我大概有三个思路,但它似乎在考虑 20 甚至 100 个
不过这个模型只对 Ultra 的订阅用户开放,每月订阅费为 249.99 美元,折合人民币约1803 元。
推理性能超越 o3、Grok 4
除了“发布”的动作之外,DeepMind 这次还秀了一波推理性能的肌肉,对标的选手是 OpenAI 的 o3 和马斯克的 Grok 4。
主要考量的能力聚焦在了编码、科学、知识和推理能力上。
结果显示,在衡量代码性能的 LiveCodeBench V6 测试中,以及在衡量不同领域(包括科学和数学)专业知识的 Humanity’s Last Exam 测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think 均取得最好的成绩。
整体来看,Gemini 2.5 Deep Think 功能具备以下优势:
- 迭代式开发与设计:DeepMind 团队对 Deep Think 在需要逐步构建复杂事物的任务中的表现印象深刻。例如,Deep Think 能够提升网页开发任务的美观性和功能性。
- 科学与数学领域的发现:由于能够通过极其复杂的难题进行推理,深度思考能够成为研究人员的强大工具。它能够协助制定和探索数学猜想,或者对复杂的科学文献进行推理分析,从而有可能加快发现的过程。
- 算法开发与代码编写:Deep Think 在处理那些需要精心编写代码、对问题表述、权衡利弊以及时间复杂度进行仔细考量的难题方面表现尤为出色。
至于其背后的原理,DeepMind 总结了一句话:扩展 Gemini 的并行“思考时间”。
具体而言,正如人类在解决复杂问题时,会花时间从不同角度探索、权衡潜在的解决方案并完善最终答案一样,Deep Think 通过使用并行思维技术,拓展了思维能力的边界。
这种方法让 Gemini 能够一次性生成众多想法并同时进行考量,甚至随着时间的推移修正或结合不同的想法,最终得出最佳答案。
此外,通过延长推理时间或“思考时间”,DeepMind 为 Gemini 提供了更多时间去探索不同的假设,并为复杂问题找到创造性的解决方案。
DeepMind 还开发了新颖的强化学习技术,旨在激励模型利用这些扩展的推理路径,从而使 Deep Think 随着时间的推移,成为一个更出色、更直观的问题解决者。
团队成员还表示,Gemini 2.5 Deep Think 用来看论文:它不只是简单地复述研究论文,而是能以我前所未见的方式,融合不同论文中的观点。
参考链接:
[1]https://blog.google/products/gemini/gemini-2-5-deep-think/