新智元报道
编辑:定慧好困
当全世界为 ChatGPT 的成功喝彩时,OpenAI 一个曾不起眼的小组,却在通过攻克数学难题,秘密锻造其真正的核心武器:「推理」能力,也就是终极目标「AI 智能体」的心脏。他们的野望,是打造一个能为你代劳一切事务的全能 AI。
历史往往都是由无数「意外和巧合」所塑造的。
2022 年,当研究员 Hunter Lightman 加入 OpenAI 时,他的同事们正忙于引爆全球的 ChatGPT——这无疑是史上用户增长最快的现象级产品。
然而,Lightman 却悄悄投身于一个看似不起眼的团队:MathGen。
他们的任务只有一个:训练 AI 模型去攻克高中级别的数学竞赛难题。
如今,这个曾经默默无闻的 MathGen 团队,竟被视为 OpenAI 现在能够问鼎行业的真正原因!
2023 年 5 月 31 日 OpenAI 发布研究博客《Improving Mathematical Reasoning with Process Supervision》,正式提出过程监督(process supervision)训练的效果。
并在作者署名中出现 Hunter Lightman 等与 MathGen team 有关的研究人员。该博客是首次与 MathGen 团队相关的官方发布之一。
同日,奥特曼于X发布祝贺消息——这是首次由 OpenAI 亲口确认 MathGen Team 的官方存在。
他们锻造的「AI 推理能力」,正是那项终极技术——AI 智能体(AI Agent)的心脏!
这种智能体,将像人类一样,在电脑上独立完成你交办的一切任务!
「那时候,AI 的数学推理能力简直一塌糊涂!」Lightman 回忆道,「我们的使命,就是让它学会真正的思考。」
从「笨学生」到「奥数金牌」的进化!
平心而论,今天的 OpenAI 模型远未完美——它们依然会「一本正经地胡说八道」,那些所谓的 AI 智能体在复杂任务面前也常常束手无策。
但是,一场巨变正在发生!
OpenAI 最顶尖的模型,其数学推理能力已实现惊天逆袭!
就在最近,OpenAI 的一个模型在全球最顶尖的国际数学奥林匹克(IMO)竞赛中,夺得金牌!
OpenAI 坚信,这种强大的推理能力,将可以复制到任何领域!
这正是他们构建通用 AI 智能体的基石,是他们从创立之初就魂牵梦绕的终极梦想!
如果说,ChatGPT 的成功是一场「无心插柳的惊世之作」,一个本想低调测试却意外引爆全球的奇迹。
那么,AI 智能体,则是 OpenAI 精心布局数年、深思熟虑的战略结晶!
「未来,你只需要向电脑下达指令,它就会为你搞定一切!」
OpenAI 的 CEO 奥特曼在 2023 年的开发者大会上宣告,「这种能力,就是 AI 智能体。它带来的颠覆,将是空前绝后的!」
奥特曼的预言能否成真?世界还在观望。但 OpenAI 已然出手!
2024 年秋,其首个 AI 推理模型o1横空出世,一鸣惊人!
不到一年,缔造这一神话的 21 名核心研究员,瞬间成为硅谷疯抢的顶尖人物!
扎克伯格不惜血本,开出上亿美元的天价薪酬,从 OpenAI 挖走了 5 名 o1 团队的核心成员,组建 Meta 的「超级智能」军团。
其中一位,清华校友赵晟佳,更是被直接任命为 Meta 超级智能实验室的首席科学家!
一场围绕「AI 大脑」的人才战争,已然白热化!
强化学习:引爆智能革命的古老技艺
OpenAI 这场推理革命的背后,是一种被称为强化学习(RL)的古老技术在焕发新生。
它就像一个严厉的教练,在模拟环境中不断对 AI 的选择进行奖惩,从而教会 AI 何为「正确」。
这项技术并不新鲜。
早在 2016 年,谷歌 DeepMind 的AlphaGo就曾用它击败世界围棋冠军,名震天下。
彼时,OpenAI 的元老级员工Andrej Karpathy 已开始构想,如何用强化学习(RL)打造一个能熟练操作电脑的 AI 智能体。
然而,从理想到现实,OpenAI 足足走了数年。
2018 年,OpenAI 推出了开创性的大语言模型GPT 系列。
论文地址:https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
它靠着海量数据和 GPU 集群,成了文本处理的天才,并最终孕育了 ChatGPT。
但它的软肋也同样致命——连基础数学都搞不定。
直到 2023 年,石破天惊的突破降临!
一个代号「Q*」(后被称为「Strawberry」)的项目,将大语言模型、强化学习(RL)和一种名为「测试时计算」的技术三位一体,融会贯通!
它赋予了模型额外的思考时间,让 AI 在给出答案前,能反复规划、推演和验证。
「思维链」(CoT)技术由此诞生!AI 在处理闻所未闻的数学难题时,表现脱胎换骨!
「我亲眼目睹了模型开始真正地推理,」研究员 El Kishky 激动地说,「它会发现自己的错误,然后回溯修正,它甚至会表现出沮丧。那感觉,就像在阅读一个人的思想!」
这些技术单拎出来,并非首创。
但 OpenAI 的鬼斧神工之处,在于将它们以前所未有的方式组合,直接催生了后来的王牌——o1。
那一刻,OpenAI 恍然大悟:这种规划与事实核查能力,不正是驱动 AI 智能体的完美引擎吗?
「我们攻克了一个我苦思冥想数年的难题!」Lightman 说,「那是我科研生涯中,最心潮澎湃的瞬间!」
引爆推理:一场自下而上的豪赌
拥有了 AI 推理模型,OpenAI 的雄心被彻底点燃。
他们发现了两条全新的进化路径:
1. 在模型训练后期,投入更多的算力!
2. 在回答问题时,给予模型更多的思考时间和算力!
「OpenAI 这家公司,思考的从来不只是当下,而是未来如何将优势无限扩大!」Lightman 说。
2023 年「Strawberry」项目突破后,OpenAI 火速组建了一支由研究员 Daniel Selsam 领衔的「AI智能体」特攻队。
他们的目标只有一个:将这项新能力推向极致!
起初,公司内部甚至没有严格区分「推理模型」和「AI 智能体」。
共同的目标只有一个:打造能完成复杂任务的超级AI!
最终,这支特攻队的工作汇入了更宏大的o1模型项目,由联合创始人Ilya Sutskever 等一众顶级大佬亲自挂帅。
为了打造 o1,OpenAI 必须押上最宝贵的资源——顶尖人才和 GPU。
在 OpenAI,资源从不靠论资排辈,而靠实力说话。
研究员必须用惊人的突破来换取公司的全力支持。
「在 OpenAI,所有研究创新都源于一线,是自下而上的。」Lightman 解释道。
「当我们把 o1 的惊人证据摆在桌上时,整个公司立刻达成共识:就是它了,全力冲锋!」
许多前员工认为,正是 OpenAI 对通用人工智能(AGI)近乎偏执的追求,才催生了这场推理革命。
他们心无旁骛,不为短期产品所动,将所有宝押在了打造最强 AI 大脑上。这种不计成本的豪赌,在其他 AI 巨头那里几乎不可能。
这个决策,如今回看,极具远见!
到 2024 年底,许多 AI 巨头发现,传统的「堆数据、堆算力」模式,回报越来越低。
而 AI 领域最激动人心的脉搏,正源自「AI 推理」的进步!
AI 究竟会不会「思考」?一场哲学的终结
AI 真的在「推理」吗?它真的拥有了「思想」吗?
自 o1 问世以来,ChatGPT 的界面里充满了「正在思考」、「正在推理」等拟人化词汇,仿佛在宣告一个新纪元的到来。
当被问及这个问题时,研究员 Kishky 基巧妙地回答:「我们是在教模型如何最高效地利用算力,去找到答案。如果从这个计算机科学的角度定义,那没错,它就是在推理。」
Lightman 的看法则更加务实和「结果导向」:
「别管它内部是怎么运作的!如果一个模型能解决极其困难的问题,那它就已经掌握了达成目标所必需的、近似于推理的能力。」
他总结道,「我们可以称之为推理,因为它看起来就像那么回事。但这都只是手段,我们真正的目的,是为全人类打造强大到不可思议的AI工具!」
OpenAI 的科学家们坦言,人们大可不必认同他们对「推理」的定义。
事实上,批评者早已涌现。但他们认为,争论名词远不如模型本身的能力重要。
AI 研究员 Nathan Lambert 打了个绝妙的比方:AI 推理就像飞机。
飞机的灵感来自飞鸟,但其飞行原理与鸟类截然不同。
这丝毫不影响飞机的伟大,它依然能带我们飞向天空。
AI的「思考」,或许也是如此——灵感源于人脑,机制却全然不同,但这并不妨碍它实现同样、甚至超越人类的结果。
终极战场:让 AI 智能体搞定主观任务
今天市场上的 AI 智能体,在编码等规则明确的领域已大显身手。
OpenAI 的Codex能帮程序员处理琐碎代码,而 Anthropic 的模型更是在 Cursor 等 AI 编程工具中备受追捧,成为首批让用户心甘情愿付费的 AI 智能体。
然而,真正的挑战在于主观世界!
当你想让 AI 帮你网购、或找个长期停车位时,通用的 AI 智能体(如 ChatGPT Agent)往往会让你失望——它们反应迟钝,还尽犯些低级错误。
这正是 AI 智能体走向普及的最后一道天堑:如何教会 AI 处理那些没有标准答案、充满主观色彩的任务?
「这本质上是个数据问题,」Lightman 一针见血,「我们当前最激动人心的研究,就是如何让模型在不可验证的任务上进行有效训练。我们已经找到了一些线索!」
OpenAI 的另一位核心研究员 Noam Brown 透露,他们已掌握全新的通用强化学习技术,能教会 AI 那些无法用简单对错来衡量的技能。
那块 IMO 奥数金牌,正是用这种方法拿下的!
夺金的 AI 模型,是一种更先进的系统:它能同时派出多个 AI 智能体,分头探索不同的解题思路,最后优中选优。
如今,谷歌和 xAI 的最新模型也纷纷采用了这种「群体智能」策略。
「AI 的数学能力会越来越强,其他推理领域也一样。」Brown 对此信心爆棚,「进步的速度快得令人难以置信,我看不出任何放缓的迹象!」
GPT-5 的野望:通往万能 AI 的终极图景
这些突飞猛进的技术,很可能将在 OpenAI 即将发布的GPT-5模型中全面展现。
OpenAI 的目标只有一个:用 GPT-5 的绝对优势,捍卫自己在AI智能体领域的王权!
但他们的野心不止于此。
Kishky 基描绘了一幅终极图景:未来的 AI 智能体将能凭直觉理解你的意图,无需你繁琐地设置。
它会自主判断何时调用何种工具、需要投入多少「思考」,就像一个心有灵犀的超级助理。
这,才是 ChatGPT 的最终形态:一个能为你代劳互联网上一切事务,并且懂你心意的全能AI智能体!
这与今天的 ChatGPT 相比,已是天壤之别。但毫无疑问,OpenAI 的研究正全速驶向这个未来。
然而,赛道已拥挤不堪!
几年前的绝对王者,如今已强敌环伺。DeepSeek、谷歌、Anthropic、xAI、Meta……个个虎视眈眈。
问题不再是 OpenAI 能否实现其智能体的未来,而是——它能否在群雄逐鹿的血战中,第一个冲过终点。
参考资料:
https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/