谷歌奥数金牌Gemini 2.5 Deep Think发布!多智能体推理碾压Grok 4、o3

  「满血版」斩获 IMO 2025 金牌,谷歌最强 Gemini 2.5 Deep Think 正式上线!

  只需每月支付 250 美元,即可通过 Gemini Ultra 订阅计划使用。

  Gemini 2.5 Deep Think 主打「多智能体推理」,可生成多个智能体并发进行推理。

  虽然这一方法会消耗更多计算资源,但能极大提升 AI 推理的精准性。

  1. 多智能体系统首次公开:Gemini 2.5 Deep Think 是谷歌首个对公众开放的多智能体模型。其核心机制是并行生成多个智能体思考路径,从中筛选最优答案,尽管耗能更大,但推理效果显著提升。

  2. 数学奥赛金牌验证:谷歌曾使用 Deep Think 变体参加 2025 年国际数学奥林匹克(IMO),并获得金牌。

  3. 发布版达到铜牌级别:发布版本速度更快,日常使用更加便捷,同时在内部评估中基于 2025 年 IMO 基准测试仍能达到铜牌水平的表现。

  4. 学术版模型首次释放:谷歌也将当时用于 IMO 的版本开放给少数数学家和学者测试,该模型推理过程耗时数小时,目标是提升研究能力与反馈机制。

  5. 性能全面领先:

  · 在 Humanity’s Last Exam(HLE)中,Gemini 2.5 Deep Think 取得 34.8% 的高分,领先 xAI 的 Grok 4(25.4%)和 OpenAI 的 o3(20.3%)。

  · 在代码挑战 LiveCodeBench6 上,Gemini 也以 87.6% 超越 Grok 4(79%)与 o3(72%)。

  6. 工具整合与响应增强:Gemini 2.5 Deep Think 可自动配合代码执行和谷歌搜索等工具,谷歌表示其能够生成比传统 AI 模型「更长的回复」。

  Gemini 2.5 Deep Think 模型特点:

  · 支持输入类型:文本(如问题、提示、待总结的文档)、图像、音频、视频

  · 上下文窗口长度:最大可接受 100 万(1M)tokens 长度的上下文。

  · 输出类型与长度:输出文本形式内容、最大输出长度可达 192Ktokens

  此前,为了争夺「首个」拿下 IMO 金牌的模型,OpenAI「不讲武德」,在没有经过组委会同意的情况下「抢先发布」消息。

  这次在 GPT-5 发布前夕,谷歌率先 Gemini 2.5 Deep Think。

  你觉得谷歌 Gemini 2.5 Deep Think 能截胡 GPT-5 吗?