谷歌奥数金牌Gemini 2.5 Deep Think发布！多智能体推理碾压Grok 4、o3

　　「满血版」斩获 IMO 2025 金牌，谷歌最强 Gemini 2.5 Deep Think 正式上线！

　　只需每月支付 250 美元，即可通过 Gemini Ultra 订阅计划使用。

　　Gemini 2.5 Deep Think 主打「多智能体推理」，可生成多个智能体并发进行推理。

　　虽然这一方法会消耗更多计算资源，但能极大提升 AI 推理的精准性。

　　1. 多智能体系统首次公开：Gemini 2.5 Deep Think 是谷歌首个对公众开放的多智能体模型。其核心机制是并行生成多个智能体思考路径，从中筛选最优答案，尽管耗能更大，但推理效果显著提升。

　　2. 数学奥赛金牌验证：谷歌曾使用 Deep Think 变体参加 2025 年国际数学奥林匹克（IMO），并获得金牌。

　　3. 发布版达到铜牌级别：发布版本速度更快，日常使用更加便捷，同时在内部评估中基于 2025 年 IMO 基准测试仍能达到铜牌水平的表现。

　　4. 学术版模型首次释放：谷歌也将当时用于 IMO 的版本开放给少数数学家和学者测试，该模型推理过程耗时数小时，目标是提升研究能力与反馈机制。

　　5. 性能全面领先：

　　· 在 Humanity’s Last Exam（HLE）中，Gemini 2.5 Deep Think 取得 34.8% 的高分，领先 xAI 的 Grok 4（25.4%）和 OpenAI 的 o3（20.3%）。

　　· 在代码挑战 LiveCodeBench6 上，Gemini 也以 87.6% 超越 Grok 4（79%）与 o3（72%）。

　　6. 工具整合与响应增强：Gemini 2.5 Deep Think 可自动配合代码执行和谷歌搜索等工具，谷歌表示其能够生成比传统 AI 模型「更长的回复」。

　　Gemini 2.5 Deep Think 模型特点：

　　· 支持输入类型：文本（如问题、提示、待总结的文档）、图像、音频、视频

　　· 上下文窗口长度：最大可接受 100 万（1M）tokens 长度的上下文。

　　· 输出类型与长度：输出文本形式内容、最大输出长度可达 192Ktokens

　　此前，为了争夺「首个」拿下 IMO 金牌的模型，OpenAI「不讲武德」，在没有经过组委会同意的情况下「抢先发布」消息。

　　这次在 GPT-5 发布前夕，谷歌率先 Gemini 2.5 Deep Think。

　　你觉得谷歌 Gemini 2.5 Deep Think 能截胡 GPT-5 吗？

作者：itwriter
来源：互联网
日期：2025-08-04
浏览 (4494)