新智元报道
编辑:犀牛桃子
谷歌 Gemini 2.5 Pro(I/O版)横空出世,强势登顶 LMAreana,斩获文本、视觉、编码三连冠,甚至编程能力全面碾压 Claude 3.7,地表最强编码模型诞生。
AI 编程王座,一夜易主。
昨晚,谷歌放出全新升级的 Gemini 2.5 Pro Preview(I/O版),一举拿下三连冠,登顶 LMeana。
它成为首个横扫文本、视觉、WebDev Arena 基准的 SOTA 模型,编码性能碾压 Claude 3.7 Sonnet。
不论是在代码转换、代码编辑,甚至是开发复杂的智能体工作流中,Gemini 2.5 Pro 都能得心应手。
随手画个草图,Gemini 2.5 Pro 即可将其变成一个绘画小程序。
只需一个提示,它就能将自然图像,转化为代码来表示独特的图案。
Hassabis 自豪地表示,只是随随便便提升了 147 分 ELO,没什么大不了的。
谷歌首席科学家、Gemini 的负责人 Jeff Dean 也连发数条推文来介绍更新后的 Gemini 2.5 Pro,足见对其性能的信心。
左右滑动查看
开发者现在可以通过 Google AI Studio 和 Vertex AI 在 Gemini API 中开始使用更新后的 Gemini 2.5 Pro 进行开发。新模型也已经在 Gemini App 正式上线,支持 Canvas 等功能。
任何人都能通过单个提示来编写代码和构建交互式 Web 应用。
史上最强编程模型屠榜
Gemini 2.5 Pro Preview(I/O版)抢先体验版,是对 2.5 Pro 的全新升级,特别在编程方面有了大幅提升,尤其擅长打造引人入胜的互动网页应用。
在视觉基准测试中,Gemini 2.5 Pro Preview 凭借巨大优势,领先 GPT-4o、o3 等模型。
在 WebDev 上,它成为首个超越 Claude 的编程模型,甚至连最新发布的 GPT-4.1 都不及 Gemini 2.5 Pro。
从基准测试上看,新版 Gemini 2.5 Pro 相较于原版得到了全方位的提升。
谷歌在官博上声称,本来计划在谷歌I/O上发布这个更新,但看到大家对这款模型的热情高涨,所以决定提前放出,让所有人能尽早开发使用。
此次更新,除了以 UI 为中心的开发外,还扩展到了代码转换、代码编辑和开发复杂的 AI 智能体工作流。
在博客中,谷歌随手放了个小实例:一句话将图片上树叶的行为用代码表达出来。
更新后的 Gemini 2.5 Pro 在视频理解方面也拥有顶尖的性能,在 VideoMME 基准测试中的得分为 84.8%,可以根据单条 YouTube 视频生成一个交互式学习网站。
谷歌在博客中还同时给出了与更新前 Gemini 2.5 Pro 之间的对比视频。
对于此次更新,AI 编程工具 Cursor CEO Michael Truell 评价道:「我们对最新的 Gemini 2.5 Pro 感到非常兴奋,它在原本就很强大的编码能力上进一步提升。我们在内部观察到,新模型在调用工具时的失败率显著降低,这一改进相信会让用户觉得 2.5 Pro 在 Cursor 中的表现比以前更加出色。」
「氛围编程」王者,全网玩疯
Gemini 2.5 Pro Preview 一经发布,热度直接爆表。开发者们借助其强大编码能力,构建出有趣的 demo 了。
谷歌大佬晒 demo
谷歌研究员 JB Alayrac 表示,Gemini 2.5 Pro 最新升级的代码能力,简直绝了。
更惊艳的是,将其编程实力和顶尖多模态视频理解能力相结合,直接把 YouTube 视频转录成 p5.js 动画。
在谷歌 DeepMind 研究员 Ali Eslami 发布的另一个演示中,用 Gemini 2.5 Pro「氛围编程」芝加哥艺术学院收藏品的 3D 导览。
另一位研究员 Fei Xia 更是直呼,Gemini 2.5 Pro 就是「氛围编程」的劳「模」。
根据植物高度与日照朝向、最佳种植间距、共生植物搭配,它可以轻松编写出智能花园规划器,自动生成最优布局。
谷歌 AI 产品主管 Dave Messer 制作了一个游戏——听音画猜。
Tim Bettridg 用 Canvas 一次性开发了图书推荐应用,只需随手拍一张书架照片。
Patrick Loeber 分享了,它还能制作一个界面更为复杂美观的理财 APP。
研究员 Megan Ben Dor Ruthven 用 Gemini 2.5 Pro 制作了游戏卡片化学元素周期互动表。
开发者 Chetaslua 让 Gemini 2.5 Pro 制作了一个地球是如何形成的 3D 演示网站。
在测试过程中,o3 无法编译,Claude 3.7 蓝屏崩溃,只有 Gemini 2.5 Pro 才是当之无愧的王者。
网友 Arthur Lee 只用调整一次,就生成了一个 3D 太阳系,非常漂亮,而且能够随意交互。
Gemini 2.5 Pro 还可以进行实时模拟。
下面演示中,它能够动态模拟出实时光影变化、昼夜循环,以及生成角色、名字,进行实时心率检测等生理指标。
在 Gemini Canvas 中通过 Maps API 创建一款探索世界的应用。
物理模拟测试中,Gemini 2.5 Pro 模拟桶中来回晃动的水,一举击败了 Claude 3.7 Sonnet、o3。
一系列演示,切切实实展示了 Gemini 2.5 Pro 强大编程能力。
AI 大佬 Andrew Curran 表示,「Gemini 取代 Gemini 是一个信号,头把交椅仍会易主,但巨龙已经苏醒」。
参考资料:
https://techcrunch.com/2025/05/06/google-debuts-an-updated-gemini-2-5-pro-ai-model-ahead-of-i-o/
https://x.com/OfficialLoganK/status/1919770687167684808