GPT-5真身曝光,首测编程惊艳全网!一句话秒生游戏,OpenAI双雄备战AGI

  新智元报道

  编辑:桃子

  GPT-5 更近了!今天,神秘模型 Horizon Alpha 火遍全网,编码首测性能逆天,各种三方基准实测相继放出。就在发布前夕,OpenAI 核心大脑专访坦言模型还有瓶颈,但坚信 Scaling Law 没有尽头。

  GPT-5 的发布前兆,愈发强烈了。

  今早,一款神秘模型 Horizon Alpha 突然上线 OpenRouter,各种榜单和测试席卷了全网。

  Horizon Alpha 模型的上下文为 256K,响应极速,非常擅长创意写作。

  它还具备了「推理」功能,不过,推理 token 的预算是 o4-mini 的两倍。

  在编程方面,Horizon Alpha 堪称无敌了。

  它可以一句话生成「水果忍者」、「外星人抓奶牛」等各种游戏,能根据 logo 图直出广告,还能轻而易举地通过「六边形物理模拟」测试。

  左右滑动查看

  在写作 EQ-Bench 基准测试中,Horizon Alpha 位列第一,远超 o3、Gemini 2.5 Pro。

  左右滑动查看

  更令人惊叹的是,它竟能在 30 秒内,完成 20 位数与 20 位数的乘法运算。

  此前被爆料的各种代号模型,比如 lobster、zenith、summit 等,在多项测试中惊艳了所有人。

  种种迹象表明,GPT-5「全家桶」绝对是个地表最强模型。

  谷歌收录 GPT-5 的 OpenAI 文档页面,目前 404

  关于 Horizon Alpha 的更多细节,全部浓缩在网友的实测中了。

  神秘 Horizon Alpha 登场,编程强到逆天

  目前,在 OpenRouter 平台上,即可开启对 Horizon Alpha 版本的测试。

  传送门:https://openrouter.ai/chat?room=orc-1754007231-sX8GtgCUyNkHh6O6In2l

  在模型推理时,相较于 Claude Sonnet 4(60-80 token/s),Horizon Alpha 的吞吐量是最快的,达 120 个 token/s。

  吞吐量对比测试,Horizon Alpha 是目前最快的。

  物理模拟惊艳,秒搭网页

  有网友让其创建一个功能完整的 Windows 95 复古桌面,效果令人惊喜且生成速度极快。

  另一个让小球在多边形中,模拟物理的测试。

  不论是六边形,还是三角形,即便小球可运动的区间缩小,也不会影响效果。

  再上点难度,20 个球在旋转的七边形内弹跳。网友惊讶地表示,「这是自己目前见过最出色的版本之一」。

  Horizon Alpha 能够在 3 分 48 秒中,创建一个展示一系列简单有趣的浏览器小游戏的网页。

  给 Horizon Alpha 同一个提示,「创建一个视觉上有趣的着色器,可以在 twigl 应用中运行,让它看起来像暴风雨中的海洋」。

  沃顿商学院 CS 教授 Ethan Mollick 惊叹道,这是迄今为止最好的,而且创建速度非常快。

  当网友要求其「创建一个与遛狗的商业网站」,Horizon Alpha 爱问一大堆需要提前确认的问题;Sonnet 4 则会直接给出解决方案。

  左:Horizon Alpha;右:Claude Sonnet 4

  最终,从搭建的效果来看,Horizon Alpha 输出的质量高且简洁。Sonnet 4 输出的更长,内容更全面,也更具创意。

  上:Horizon Alpha;下:Claude Sonnet 4

  Horizon Alpha 还会自主搭建一个银行网站。

  设计一绝,审美感在线

  AI 大佬 Matthew Berman 亲自测试其 SVG 创建和 UI 设计功能,Horizon Alpha 瞬间生成了一张专业设计美感的图。

  此前,AI 圈大神 Simon Willison 曾表示,从一张「骑自行车的鹈鹕」就可以看透 AI 进化史。

  如今,用 Horizon Alpha 生成同款 SVG 测试,是所有模型当中最强的那个。

  其他一些 SVG 优秀案例。

  左右滑动查看

  需要注意的是,虽然各种测试表现不凡,不过根据多方推测,Horizon Alpha 可能只是一款小模型。

  不管是 GPT-5 中的哪一款,接下来就坐等 OpenAI 发布了。

  OpenAI「双雄」专访,奥特曼盛赞

  就在 GPT-5 发布前夕,OpenAI 双雄——首席科学家 Jakub Pachocki 和研究主管 Mark Chen 重磅采访同时放出了。

  这对黄金搭档,可是研发 GPT-5 的「双巨头」。

  这篇由 MIT Technology Review 做的独家专访,没想到深得奥特曼的心。

  他对此大加赞赏,「我通常认为这类文章说不到点上,但这篇确实抓住了两人合作精髓」。

  能够得到奥特曼的高度认可,究竟讲了什么?

  OpenAI 最佳拍档

  熟悉 OpenAI 内部人员变动的人都知道,Jakub Pachocki 和 Mark Chen 都是后起之秀。

  他们风格迥异,却形成了完美的互补。

  Mark Chen,曾经的华尔街量化交易员,着装考究,谈吐间挥洒自如,可以说与 AI 毫不搭界。

  入职 OpenAI 后,他迅速成长为 DALL·E和 GPT-4 多模态能力、Codex 背后的关键推手,擅长将复杂的研究转化为人人可用的产品。

  而 Jakub Pachocki,一位低调的理论计算机科学家,接替了离职后的 Ilya,痴迷于突破 AI 逻辑与创造力的极限。

  关于内部的角色分工,Pachocki 是这么说的,「Chen 负责组建和管理研究团队,而我负责设定研究路线图,并确立我们长期的技术愿景」。

  他们之间合作模式,可以说是「无缝切换」。

  不论技术难题多么复杂,Pachocki 和 Mark 总能非常默契,迅速分工合力攻克。

  AGI 标尺,自主时间

  当前,外界对 GPT-5 的期待,是一款更强、更快、更全能的巨兽。

  采访中,Mark Chen 虽未直面 GPT-5 问题,却坦言「我们始终在努力理解深度学习的技术瓶颈,即便是当前最强推理模型,也无法有效将知识串联起来」。

  Pachocki 补充道,「我们仍处于推理范式最开端」。

  如何让一款模型进行长期的学习和探索,并提出新颖的想法,才是至关重要。

  同时,在他们看来,Scaling Law 远未触及天花板,通过投入更多计算资源、数据,模型就会变得越来越好。

  被问题如何看待 AGI 时,Mark Chen 提出了一个指标——模型能更长时间地自主工作的能力,即「自主时间」。

  这个概念简单却深刻,它代表着 AI 在面对复杂问题时,能持续取得进展,而无需人类干预的时间长度。

  这个愿景,远远超出了当前模型的能力,自主时间仅限于几分钟到一小时,遇到陌生场景往往会「卡住」。

  数学+编程,摘下 AI 圣杯?

  前段时间,OpenAI 模型在两项顶级竞赛中取得佳绩:

  一是,在 AtCoder 世界巡回赛总决赛中获第二名;二是,在 IMO 2025 大赛中夺下金牌。

  在 AtCoder 比赛中,Psyho 的胜利展现了人类独有的创造性思维,类似 AlphaGo 当年击败李世石的围棋比赛。

  Pachocki 表示,「我们在这里谈论的是编程和数学,但它实际上关乎创造力,提出新颖的想法,将不同领域的想法联系起来」。

  在他们二人看来,数学和编程是「通用智能」的基石。

  参考资料:

  1. https://x.com/karminski3/status/1950987896565182587
  2. https://x.com/chetaslua/status/1950784759799718161
  3. https://www.technologyreview.com/2025/07/31/1120885/the-two-people-shaping-the-future-of-openais-research/