国思软件 - OpenAI并未让DeepSeek惊出一身冷汗

　　出品 | 虎嗅科技组

　　作者 | 房晓楠

　　编辑 | 苗正卿

　　头图 | 视觉中国

　　“OpenAI 的创新好像到瓶颈期了。”一位业界人士这样说道。

　　今日凌晨，预热了很久的 OpenAI o3 模型完整版终于面世，且与以往直播“挤牙膏”式的依次、慢吞发布方式不同的是，这次 o3 和 o4-mini 是同时发布。

　　在 OpenAI 官方的陈述中，o3 和 o4-mini 的亮点主要在于可以组合调用 ChatGPT 中的各个工具，像是网络搜索、Python、图像分析、文件解释和图像生成等。这可以看作是 OpenAI 开始后发补足自身在 Agent 能力上的探索。

　　其中，o3 作为推理模型，在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了纪录。比如在 Codeforces、SWE-bench、MMMU 基准测试中，视觉任务准确率高达 87.5%，而 MathVista 达到 75.4%。

　　其实分数、榜单，这些都是常规操作。相较于以往，这次的最大不同在于，o3 和 o4-mini 将上传的图像直接集中到思维链中，这就意味着，图像不仅仅是被看到，还能被用来作为思考过程中的一部分。

　　从 OpenAI 团队成员、中科大校友 Jiahui Yu 发布的帖文来看，“用图像思考”应该是 OpenAI 去年 9 月发布o系列模型以来，就在研发计划中，之前还悄悄推出了 o1 Vision 并进行了初步预览，但并没有取得很好的效果，也没有引起关注，直到这次在 o3 和 o4-mini 上实现了这一能力。

　　根据外部专家评估，o3 作为 o1 系列模型的继任者，其在复杂问题上的错误率要比后者低 20%，适合在生物学、数学和工程领域的复杂问题查询。

　　针对这一点，国外一位医学博士在测评后发帖表示，这一点确实有很大进步，当他向 o3 来提问一些颇具挑战性的临床或医学问题时，回答精准、全面，符合对一位该领域真正专家的期望。

　　对于那些想亲自测评、体验的用户来说，OpenAI 官方已经表示，目前 ChatGPT 的 Plus、Pro 会员以及 Team 用户，即日起就可以直接体验 o3、o4-mini，以及 o4-mini-high，而之前的 o1、o3-mini 和 o3-mini-high 已默默退出舞台。这一操作也被有些网友戏称为“内部赛马”，新的产品出来后，之前的通通让路。

　　到目前为止，之前预告要发布的 GPT‑4.1 全家桶系列、o3、o4-mini 模型就已经全部亮相展示了。据 Sam Altman 表示，o3 和 o4-mini 可能是 ChatGPT 在 GPT-5 发布之前的最后独立 AI 推理模型了，期间大概率是不会再有其他新款模型出来了，另外他也说了，预计将在几周内将 o3-pro 升级到专业版。

　　在 OpenAI 官方的宣传口径中，o3 和 o4-mini 是 OpenAI 所有模型中最为强大、智能的模型，一些开发者、用户在使用时，也感受到了进步。但是，创新能力似乎并没有达到预期。

　　“OpenAI 的步调已经不再挺胸阔步了，更不知所措。”在看完 OpenAI 这次发布的新品后，一位业内人士这样感叹道。

　　虽然 o3、o4-mini 模型作为新产品，效果不错，但相较于 OpenAI 以往的激进和高举旗帜式前进，如今在创新上面呈现出明显的心有余而力不足。

　　其实前两天在 GPT4.1 系列套餐发布后，不少业内人士就向虎嗅表示，“暂时还没看到有什么特别亮眼的突破。”“对 o3 期待值没有那么高。”

　　或者这种“失望”要来得更早一点。

　　去年 12 月，o3 在 OpenAI 的系列直播尾声亮相，Sam Altman 称其为“一个非常、非常聪明的模型”，完全将 O1 甩在身后，更是在 ARC-AGI 测试这一旨在评估 AI 系统适应新任务和展示流动智力能力的测试中，获得 87.5% 的成绩，也是首次超越人类平均水平（85%），令业界感到震惊，被认为是在通往 AGI 的道路上迎来了新突破。但在业界开发者看来，似乎并不是这样。

　　“这就好比高考成绩不能代表工作业务能力。”一位开源领域人士锐评道。而且，如今的行业趋势已经进入到对数据高要求、对 Agent 全适配方向中，这就意味着私有化和混合模型推理为主的时代到来了。但是 OpenAI 对于开源的态度，众所周知。

　　尤其是在年初，当 DeepSeek-R1 凭借着超低的训练成本和性能媲美 o1 精彩亮相时，无疑是给了 OpenAI 一记响亮的耳光，而 DeepSeek 的全方位、无死角开源，像是又给了 OpenAI 再一记更响亮的耳光。

　　之后，这两记耳光不仅打得 OpenAI 黯然失色，还乱了它的阵脚和节奏，模型命名混乱、功能创新不足、尝试开源但态度暧昧不明，再加上内部人员高频流失，等等，无疑正在让它慢慢失去竞争优势，再不复一年之前被视为通往 AGI 的正确的、领先的道路引领者角色……

　　而官方也说了，此次发布的 GPT4.1 系列、o3，以及 o4-mini 是 GPT-5 正式发布前的最后一次模型发布了，也被视为 GPT-5 时刻的关键一步，可以理解为是 GPT-5 的前菜，主打“量大管饱”。但是，在技术的攀登道路上，量变能够引起质变并非唯一真理，更何况，这个量还远远不足。

　　“GPT-5 应该是多个 GPT4.1 组成的吧。”一位业内人士这样戏谑道，一直传 GPT-5 或将在 5 月发布，到底 OpenAI 还能不能重回巅峰，只有到时候揭晓了。

　　本文来自虎嗅，原文链接：https://www.huxiu.com/article/4248481.html?f=wyxwapp

OpenAI并未让DeepSeek惊出一身冷汗

我们的产品

相关链接

关于我们

联系我们