
谷歌已在 Gemini 应用中面向 Google AI Ultra 订阅者开放 Gemini 2.5 Deep Think 模型,此模型技术源于在国际数学奥林匹克(IMO)竞赛中达到金牌标准的模型,但它是一个能够更快、更适合日常使用的版本。
根据内部评估,此次发布的版本在 2025 年 IMO 基准测试中能达到铜牌水平。Deep Think 的核心技术在于利用并行的 “思考时间” 和新颖的强化学习技术来解决复杂问题。
它通过同时生成、考虑、修正和组合多个想法来寻找最佳答案,这种方法被称为并行思维。通过延长推理时间,Gemini 能够探索更多假设,从而为复杂问题提供创造性解决方案。
在 LiveCodeBench V6 和 Humanity’s Last Exam 等基准测试中,Gemini 2.5 Deep Think 在不使用工具的情况下取得了当前最佳性能。该模型适用于需要创造力、战略规划和逐步改进的任务,例如迭代式开发与设计、科学与数学发现,以及算法开发和编程。
在测试中,Deep Think 在网页开发任务的美观性和功能性上都表现出色。安全性方面,与 Gemini 2.5 Pro 相比,Deep Think 在内容安全和语气客观性上有所提升,但拒绝无害请求的倾向也更高。
Google AI Ultra 订阅者现在可以在 Gemini 应用中使用 2.5 Pro 模型时,通过在提示栏中切换 “Deep Think” 来启用此功能。Google 还与一小组数学家和学者分享了达到 IMO 金牌标准的官方版本,以收集反馈用于进一步改进。
https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf