出品 | 虎嗅科技组
作者 | 房晓楠
编辑 | 苗正卿
头图 | 视觉中国
“OpenAI 的创新好像到瓶颈期了。”一位业界人士这样说道。
今日凌晨,预热了很久的 OpenAI o3 模型完整版终于面世,且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是,这次 o3 和 o4-mini 是同时发布。
在 OpenAI 官方的陈述中,o3 和 o4-mini 的亮点主要在于可以组合调用 ChatGPT 中的各个工具,像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是 OpenAI 开始后发补足自身在 Agent 能力上的探索。
其中,o3 作为推理模型,在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在 Codeforces、SWE-bench、MMMU 基准测试中,视觉任务准确率高达 87.5%,而 MathVista 达到 75.4%。
其实分数、榜单,这些都是常规操作。相较于以往,这次的最大不同在于,o3 和 o4-mini 将上传的图像直接集中到思维链中,这就意味着,图像不仅仅是被看到,还能被用来作为思考过程中的一部分。
从 OpenAI 团队成员、中科大校友 Jiahui Yu 发布的帖文来看,“用图像思考”应该是 OpenAI 去年 9 月发布o系列模型以来,就在研发计划中,之前还悄悄推出了 o1 Vision 并进行了初步预览,但并没有取得很好的效果,也没有引起关注,直到这次在 o3 和 o4-mini 上实现了这一能力。
根据外部专家评估,o3 作为 o1 系列模型的继任者,其在复杂问题上的错误率要比后者低 20%,适合在生物学、数学和工程领域的复杂问题查询。
针对这一点,国外一位医学博士在测评后发帖表示,这一点确实有很大进步,当他向 o3 来提问一些颇具挑战性的临床或医学问题时,回答精准、全面,符合对一位该领域真正专家的期望。
对于那些想亲自测评、体验的用户来说,OpenAI 官方已经表示,目前 ChatGPT 的 Plus、Pro 会员以及 Team 用户,即日起就可以直接体验 o3、o4-mini,以及 o4-mini-high,而之前的 o1、o3-mini 和 o3-mini-high 已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”,新的产品出来后,之前的通通让路。
到目前为止,之前预告要发布的 GPT‑4.1 全家桶系列、o3、o4-mini 模型就已经全部亮相展示了。据 Sam Altman 表示,o3 和 o4-mini 可能是 ChatGPT 在 GPT-5 发布之前的最后独立 AI 推理模型了,期间大概率是不会再有其他新款模型出来了,另外他也说了,预计将在几周内将 o3-pro 升级到专业版。
在 OpenAI 官方的宣传口径中,o3 和 o4-mini 是 OpenAI 所有模型中最为强大、智能的模型,一些开发者、用户在使用时,也感受到了进步。但是,创新能力似乎并没有达到预期。
“OpenAI 的步调已经不再挺胸阔步了,更不知所措。”在看完 OpenAI 这次发布的新品后,一位业内人士这样感叹道。
虽然 o3、o4-mini 模型作为新产品,效果不错,但相较于 OpenAI 以往的激进和高举旗帜式前进,如今在创新上面呈现出明显的心有余而力不足。
其实前两天在 GPT4.1 系列套餐发布后,不少业内人士就向虎嗅表示,“暂时还没看到有什么特别亮眼的突破。”“对 o3 期待值没有那么高。”
或者这种“失望”要来得更早一点。
去年 12 月,o3 在 OpenAI 的系列直播尾声亮相,Sam Altman 称其为“一个非常、非常聪明的模型”,完全将 O1 甩在身后,更是在 ARC-AGI 测试这一旨在评估 AI 系统适应新任务和展示流动智力能力的测试中,获得 87.5% 的成绩,也是首次超越人类平均水平(85%),令业界感到震惊,被认为是在通往 AGI 的道路上迎来了新突破。但在业界开发者看来,似乎并不是这样。
“这就好比高考成绩不能代表工作业务能力。”一位开源领域人士锐评道。而且,如今的行业趋势已经进入到对数据高要求、对 Agent 全适配方向中,这就意味着私有化和混合模型推理为主的时代到来了。但是 OpenAI 对于开源的态度,众所周知。
尤其是在年初,当 DeepSeek-R1 凭借着超低的训练成本和性能媲美 o1 精彩亮相时,无疑是给了 OpenAI 一记响亮的耳光,而 DeepSeek 的全方位、无死角开源,像是又给了 OpenAI 再一记更响亮的耳光。
之后,这两记耳光不仅打得 OpenAI 黯然失色,还乱了它的阵脚和节奏,模型命名混乱、功能创新不足、尝试开源但态度暧昧不明,再加上内部人员高频流失,等等,无疑正在让它慢慢失去竞争优势,再不复一年之前被视为通往 AGI 的正确的、领先的道路引领者角色……
而官方也说了,此次发布的 GPT4.1 系列、o3,以及 o4-mini 是 GPT-5 正式发布前的最后一次模型发布了,也被视为 GPT-5 时刻的关键一步,可以理解为是 GPT-5 的前菜,主打“量大管饱”。但是,在技术的攀登道路上,量变能够引起质变并非唯一真理,更何况,这个量还远远不足。
“GPT-5 应该是多个 GPT4.1 组成的吧。”一位业内人士这样戏谑道,一直传 GPT-5 或将在 5 月发布,到底 OpenAI 还能不能重回巅峰,只有到时候揭晓了。
本文来自虎嗅,原文链接:https://www.huxiu.com/article/4248481.html?f=wyxwapp