刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了

  新智元报道

  编辑:桃子好困

  ChatGPT agent 诞生了!奥特曼深夜带队直播,首个统一智能体无缝融合三大 AI,自主思考决策,还能上网直出 PPT、Excel。2025 年,作为全新 AI 杠杆,ChatGPT 正在解锁「超级个体」新模式。

  今晚,ChatGPT 和 Deep Research、Operator「三剑客」首度合体!

  奥特曼亲自带队,25 分钟高能直播重磅发布 ChatGPT agent,开启人类和智能体协作全新时代。

  ChatGPT agent 的核心,是一个统一的智能体系统。

  简言之,它融合了此前三大技术突破的优势:Operator 与网站交互的能力,Deep Research 整合信息的技巧,以及 ChatGPT 智能对话优势。

  如今,ChatGPT 可以直接使用计算机,全程自主为你工作。

  从智能浏览网页、筛选结果,在需要时提醒安全登录、运行代码、进行分析,还能直出 PPT 和 Excel 汇总发现结果。

  最最重要的是,一切尽在掌控之中。

  人类随时可以中断任务、接管浏览器,或是完全停止。

  在 HLE 测试中,ChatGPT agent 拿下了 41.6% 高分;并在数学 FrontierMath 基准上,同样刷新 SOTA,碾压 o4-mini 和 o3 模型。

  顺便提一句,ChatGPT Agent 在 HLE 上仍不及马斯克的 Grok 4 Heavy

  谁能想到,上面这张 PPT,还是 ChatGPT agent 自己做的。在基准测试中,其操作办公软件的能力,几乎没给人类留下多少余地了。

  网友辣评:打工人的好日子到头了

  奥特曼感慨道,ChatGPT agent 使用计算机执行复杂任务,对自己来说是一个真正「感受 AGI」的时刻。

  从今天起,Pro、Plus 和 Team 用户直接可以开启体验,在对话框下拉栏中,选择「Agent mode」即可。

  其中,Pro 用户每月有 400 次的额度,Plus 和 Team 为每月 40 次。

  太长不看版:(节选自 OpenAI 研究员张熙堃的X)

  1. Deep Research 擅长做研究,Operator 会执行操作,而 ChatGPTagent则能同时完成所有这些任务!

  2. 端到端强化学习的威力!基于 RL Scaling,ChatGPT agent 的高效性和数据利用率非常惊人。

  3. 人机协作,依旧是核心!任务过程中可随时打断,引导 ChatGPT 完成新任务。在支付、删除文件等操作前,会向人类主动确认。只有在必要时,它才会提问以获取更清晰的指令。

  4. 真实世界表现 > 追逐基准排名!ChatGPT agent 确实横扫了很多榜单。但在模型开发过程中,OpenAI 既不会一门心思去刷分,也不太在意最终在排行榜上的位置。

  三强首度合体

  ChatGPT agent 正式登场

  今年 1 月,OpenAI 发布了首个智能体 Operator,让 AI 像人类一样直接与 GUI 交互。

  紧接着 2 月初,他们又推出了首个 Deep Research,推理模型直接可以使用工具,开展研究。

  这两个工具各有专长,Operator 可以自主上网、点击和输入,而 Deep Research 则擅长分析和总结信息。

  然而,前者无法开启深度分析、撰写详细报告;后者无法与网站交互获得精确结果。

  今天,OpenAI 正式将其合二为一——ChatGPT agent,「单一模型」即可解锁全新能力。

  ChatGPT agent 配备了一整套工具:

  · 可视化浏览器:用于图形用户界面与网页交互

  ·文本浏览器:用于处理简单推理和网页查询

  ·终端+直接 API 访问权限:图像 API

  agent 还能借助 ChatGPT 连接器,连接 Gmail、Github 等应用,便于根据提示找到相关信息并给出回复。

  不仅如此,接管浏览器后登录任何网站,让 ChatGPT agent 进行更深入、更广泛的研究和任务执行。

  由此,ChatGPT 便能选择最佳路径,高效地执行任务。

  打工人的 PPT,ChatGPT 代劳了

  为了展示 ChatGPT agent 能力,团队现场演示了一个真实场景:为朋友 Minnie 和 Sarah 策划一场婚礼。

  根据提示,这项任务需要 AI 依据着装要求和天气情况,推荐精美价格合理的礼服、为参会者预订酒店,以及为新人准备婚礼礼物。

  ChatGPT agent 在理解提示后,并没有直出报告,而是再次重述确认任务要求,比如确切的婚礼日期。

  当一切确认之后,接下来,它便自主打开浏览器,并在交互页面上显示逐步执行的每一个过程,即思维链。

  需要注意的是,agent 会在几秒内配置好的虚拟计算环境中,开始执行任务。

  任务执行中,agent 使用文本浏览器查询,并找到了合适的西装,然后切换到视觉浏览器,等待确认。

  在 ChatGPT 执行婚礼策划任务同时,还可以让它做另一个任务:购买一双 9.5 码黑色鞋子。

  也就意味着,ChatGPT agent 不惧被打断。即便上一个任务规划时间很长,也不耽误接下来的事情。

  最后,ChatGPT agent 生成了一份非常全面的报告,包括礼服、酒店、鞋子、礼物全部给出了规划和建议。

  在另一个演示中,团队用 ChatGPT 应用开启任务——上传一张团队吉祥物——可爱小狗的图片,做成笔记本贴纸,并订购 500 个。

  然后,它便开始调用工具 Imagen 生成动漫版图片,并设计贴纸,从 StickerMule 订购 500 份寄到 xxx。

  更令人惊喜的是,ChatGPT agent 还能通过连接器,比如 Google Drive 提取评估数据,自己生成 PPT。

  在此过程中,agent 会编写代码,并将其编译成最终幻灯片。它还会借用图像工具,为 PPT 页面进行装饰。

  不一会功夫,它就直接输出了第一张 HLE、FrontierMath 的 PPT,但不够精致,然后它再次通过 RL 不断优化。

  最终,就得到了一个优美的 PPT 文件,可以在办公软件中直接打开。

  不得不说,ChatGPT agent 太强了。

  甚至,你还可以让 ChatGPT agent 制定一个参观 30+ 美国职棒大联盟球场的最佳行程。

  耗时 25 分钟,它迅速生成一个直观可视化的 Excel,以后做数据也彻底解放了双手。

  HLE 拿下 41.6% 高分

  多项基准破纪录

  统一后的 agent,大幅提升了 ChatGPT 在日常和专业领域的实用性。

  不仅在网页浏览,还是现实任务完成能力的评估中,ChatGPT agent 全部刷新了 SOTA。

  如上提及的,在人类最后考试(HLE)中,ChatGPT agent 以 41.6% 的得分,刷新了 pass@1 最高纪录。

  当研究团队采用并行策略后,即同时运行最多 8 次并选取自信度最高结果,HLE 得分直接刷到了 44.4%。

  在最难的数学基准测试 FrontierMath 中,ChatGPT agent 借助代码终端等工具,实现了 27.4% 准确率,大幅超越 o3 和 o4-mini。

  不仅如此,在内部设计的「高经济价值知识工作」测试中,ChatGPT agent 在半数案例中,输出质量与人类相当,甚至碾压人类。

  任务来自真实专业工作场景,比如为按需紧急护理服务商撰写竞品分析、编制详细的摊销表,以及为新的绿色氢能设施寻找可行的水源

  在评估数据科学生产力任务的 DSBench 中,ChatGPT agent 以显著优势超越了人类表现。

  在 Excel 编辑能力的 SpreadsheetBench 测试中,其表现同样远超现有模型。

  当获得直接编辑权限时,ChatGPT agent 以 45.5% 的得分显著超越 Excel Copilot 的 20.0%。

  在投行分析师1-3 年级建模任务的内部评估中,ChatGPT agent 底层模型碾压 Deep Research 和 o3 模型。

  此外,在 OpenAI 发布的 BrowseComp 基准测试中,ChatGPT agent 以 68.9% 的准确率刷爆纪录,比 Deep Research 高出 17.4%。

  在 WebArena 基准测试中,其表现也优于基于 o3 的 CUA(即 Operator 背后的底层模型)。

  BrowseComp 基准专门评估浏览智能体在网络上定位难寻信息的能力;WebArena 用于评估网页浏览智能体完成现实网络任务的能力

  2025 下一个热点

  AI 智能体「杠杆」

  ChatGPT agent 这么强,能为我们带来什么价值?

  最近,刚刚离职 OpenAI 研究员 Hyung Won Chung 分享演讲视频中表示,「AI 正成为有史以来最强大的『杠杆』」。

  他表示,AI 智能体结合了两种杠杆:人力和代码。

  它就像雇了个帮手,替你干活(人力杠杆);而且它又是软件,能无限复制(代码杠杆)。

  1. 人力杠杆 :AI 智能体可以替人类完成工作,就像一个人 AI 助理。

  2. 代码杠杆:当前的 AI 智能体是纯软件形式,可以轻松复制。如果你想要 10 倍的产出,就运行 10 个智能体;想要 12 倍,就再加两个。这种杠杆不需要许可,可以随意扩展。

  在这场发布会上,OpenAI 重提了「AI 杠杆」这一核心话题。

  他们同样认为,2025 年之后,AI 智能体将成为一种全新的杠杆机制。

  它不仅能代替人类完成工作,还能通过「复制粘贴」无限扩展。不论是 10 个,还是更多智能体,不需要额外的许可,即可一键部署。

  研究人员举例称,Deep Research 发布之后近半年里,极大地提升了个体和小团队的产出。

  过去,团队规模化需要依赖「人力杠杆」,但人类协作的沟通成本,甚至包括摩擦,往往成为了瓶颈。

  而现在,ChatGPT agent 的出现一个重大意义在于,让小团队创造巨大的价值。

  一个 10 人或 20 人的初创公司,借助 AI 杠杆,可能创造出媲美科技巨头的成就。

  这种「超级个体」模式,或许在未来将重塑企业的组织架构,凭借 AI 实现指数级增长。

  北大校友领衔出镜

  值得一提的是,这次直播中,有两位华人学者同时出镜。

  Zhiqing Sun(孙之清)

  孙之清于 2024 年 6 月加入 OpenAI,担任研究科学家。

  他于 2025 年在卡内基梅隆大学获得计算机科学博士学位,于 2019 年在北京大学获得计算机科学学士学位。

  在 OpenAI 期间,他不仅参与到了 o3/o4-mini、计算机使用智能体,以及 Deep Research 这几个关键项目当中,而且还是 Deep Research 的研究负责人。

  Casey Chu

  Casey Chu 于 2020 年 4 月加入 OpenAI,担任研究员。

  此前,他于 2019 年在斯坦福大学获得计算数学硕士学位,并于 2016 年在哈维穆德学院获得数学学士学位。

  后来他曾尝试攻读斯坦福大学的计算数学博士学位,但中途选择了退学。

  别看他的 title 只是研究员,但他不仅是 DALL·E 2 的共同一作,而且还主导了 GPT-4 视觉输入的初始原型的开发。

  参考资料:

  https://openai.com/index/introducing-chatgpt-agent/

  https://x.com/xikun_zhang_/status/1945895070269583554