谷歌发布Gemini 2.5 Deep Think:月费250美元会员可用

  8 月 2 日消息,据 TechCrunch 报道,谷歌 DeepMind 正式推出 Gemini 2.5 Deep Think。据公司介绍,这是其迄今为止最先进的 AI 推理模型,能够在回答问题时同时探索并权衡多种解题路径,进而选出最优答案。

  从本周五起,订阅了每月 250 美元 Ultra 订阅服务的用户,将可在 Gemini 应用中率先体验 Gemini 2.5 Deep Think。

  Gemini 2.5 Deep Think 最早亮相于 2025 年的谷歌I/O大会,是谷歌公开发布的首个多智能体(multi-agent)模型。这类系统可同时生成多个 AI 智能体,并行处理同一问题,虽然对算力资源的消耗远超单一智能体,但通常能获得更优的解答。

  谷歌曾以 Gemini 2.5 DeepThink 的一个变体,在今年的国际数学奥林匹克(IMO)上斩获金牌。

  与此同时,谷歌还宣布向部分经过筛选的数学家和学者群体,开放其在 IMO 赛事中使用的那一版模型。公司表示,这一 AI 模型完成一次推理“需要数小时”,远超绝大多数面向消费级用户的 AI 模型(通常仅需数秒或数分钟)。谷歌希望该 IMO 模型能助力科研,并收集反馈,以便进一步优化多智能体系统在学术场景下的应用。

  谷歌指出,相较于I/O大会上首次亮相的版本,如今的 Gemini 2.5 DeepThink 已有显著提升。公司还宣称已开发出“全新的强化学习技术”,以促使 Gemini 2.5 Deep Think 更高效地利用其推理路径。

  谷歌在一篇博文中表示:“Deep Think 能帮助用户解决需要创造力、战略规划和逐步改进的问题。”

  公司称,Gemini 2.5 DeepThink 在“人类终极大考”(Humanity’s Last Exam,HLE)上取得了顶尖水平(state-of-the-art)的表现。HLE 是一项极具挑战性的测试,旨在评估 AI 回答数千道来自数学、人文、科学等领域众包问题的能力。谷歌称,其模型在不借助外部工具的情况下,HLE 得分为 34.8%,而 xAI 的 Grok 4 得分为 25.4%,OpenAI 的 o3 得分为 20.3%。

  此外,Gemini 2.5 DeepThink 在 LiveCodeBench 6 这一高难度编程竞赛测试中,表现同样超越了 OpenAI、xAI 和 Anthropic 的 AI 模型。谷歌模型的得分为 87.6%,Grok 4 为 79%,OpenAI 的 o3 为 72%。

  Gemini 2.5 Deep Think 能自动调用代码执行、谷歌搜索等工具,并且公司表示,该模型生成的回应“篇幅远超传统 AI 模型”。

  在谷歌的内部测试中,相较于其他 AI 模型,Gemini 2.5 Deep Think 完成的网页开发任务在细节丰富度和视觉美感上均更胜一筹。公司认为,该模型有望为科研人员提供助力,“并有可能加速科学发现的进程”。

  目前,多智能体系统已成为业界前沿的探索方向。埃隆·马斯克(Elon Musk)旗下的 xAI 近期也推出了多智能体系统 Grok 4 Heavy,据称在多项基准测试中取得领先成绩。OpenAI 研究员诺姆·布朗(Noam Brown)在播客中透露,公司今年在 IMO 上获得金牌所用的未公开模型,同样采用了多智能体架构。与此同时,Anthropic 旗下能生成详尽研究简报的工具 Research agent,也同样依托多智能体系统提供支持。

  尽管多智能体系统表现突出,但其运营成本甚至高于传统 AI 模型。这也意味着,科技公司很可能会将这类高成本的系统,作为其顶级付费订阅服务的一项专属功能,正如 xAI 和谷歌目前所做的那样。

  在接下来的几周,谷歌计划通过 Gemini API,邀请一小批测试者体验 Gemini 2.5 DeepThink。公司表示,此举是希望进一步了解开发者和企业用户可能会如何利用其多智能体系统。(易句)

  (本文由 AI 翻译,网易编辑负责校对)