Grok4全网玩疯，成功通过小球编程测试，Epic创始人：这就是AGI

　　克雷西发自凹非寺

　　量子位 | 公众号 QbitAI

　　发布还不到一天，马斯克的 Grok4 就已经被网友们玩疯了。

　　比如有网友报告，Grok-4 已经成功通过了著名的六边形小球氛围编程测试。

　　只见随着六边形的不断旋转，小球错落有致地从开口下落。

　　拿着显微镜捉虫的网友发现小球在返回中心位置时会穿墙，但作者表示这是故意为之。

　　当然除了小球之外，还有更让人为之震撼的动画。

　　画面中有很多小人，看似在随机跑动，但它们先后组成了“Hello World”“I am grok”的文字，还有笑脸符号。

　　而且作者表示，Grok4 Heavy 直接一发入魂，其他模型都无法与之匹敌。

　　此外还有大佬也出来给 Grok4 打 call，比如 Epic 创始人 Tim Sweeney，表示在他看来 Grok4 就是 AGI。

　　Tim 把一篇论文喂给了 Grok4，结果发现 Grok4 对它从未见过的问题给出了深刻见解。

　　马斯克也转发 Tim 的帖子并附议，自己也有这种感觉。

　　除了这些，网友们还有哪些玩法呢，接下来就一睹为快！

　　Grok4“全面体检”

　　一位叫 Alex 的提示词工程师，用 8 个问题给 Grok-4 做了一波“全面体检”，还拿 OpenAI 的 o3 进行了对比。

　　第一个任务也是小球测试，不过比开头的例子要简单得多，六边形只有一层，小球也只有一个。

　　测试的目的，是考察模型对物理规律的理解。

　　白底的是 Grok4 作品，黑底的则出自 o3 之手，两边一对比高下立判。

　　再来是多层推理，这里 Alex 设计了一个专业的法律问题。

如果A公司收购B公司，而 B 公司持有C公司的债务，那么如果C公司违约，会发生什么？解释所有法律和财务后果。

　　Grok4 用表格的形式整理了 ABC 三方和其他方面可能受到的影响，并最后给出总结。

　　而从最末尾的内容来看，o3 的这部分回答似乎和法律关系不大。

　　编程方面，Alex 测试了两个模型的代码翻译能力，要求它们将用于解决迷宫问题的 Python 递归函数转换为 Go 语言，并逐行提供西班牙语注释。

　　结果 Grok4 搜集到了代码并完成了任务，o3 这边则是用西班牙语回复，让 Alex 自己提供一段代码这样它才能改。

　　再来是让模型的“专家转变”，Alex 要求模型分别向机器学习博士生和 10 岁的小朋友解释 Transformer 的工作原理。

　　其余的几个题目主要和安全相关，Alex 测试了多种注入攻击方式，这里就不一一展示了。

　　最终，Grok4 通过了全部的 8 个任务，而 o3 只通过了两个。

　　Grok4：最喜欢欧拉恒等式

　　一名叫 Dan 的X员工，在聊天中询问 Grok4 最喜欢的公式是什么。

　　Grok4 的回答是“e^iπ + 1 = 0”，也就是著名的欧拉恒等式（欧拉公式的一种特殊情况）。

　　Dan 表示，自己上学时学了 5 个学期的高数并且成就都是A，但依然未对欧拉恒等式有过直观了解。

　　结果看到 Grok4 制作的可视化网页之后，Dan 终于对学了两年半数学也没搞透彻的欧拉恒等式醍醐灌顶。

　　Dan 制作这个网页只用了四轮对话，并且第一轮只是询问 Grok4 最喜欢的公式是什么，最后一轮是调整为暗色模式，相当于只用两轮就能完成核心功能的制作。

　　挑战 SVG 绘图

　　除了把数学公式可视化，Grok4 还挑战了 SVG 绘图，SVG 是一种用 XML 形式表示的矢量图形。

　　因此不同于一般的 AI 生图，SVG 绘图的本质其实是在写代码（虽然人类可用图形界面绘制），但话说回来，模型依然需要对要画的内容有所把握。

　　这项挑战被发在了 Reddit，一同参与的还有 o3、Gemini 2.5 Pro 和 Claude 4 Sonnet，帖主认为这是测试大模型视觉和空间推理能力的好方法。

　　第一题是美国地图，直观看下来最接近的是 Gemini，不过 Grok4 至少也没出现 o3 和 Claude 那种区块重叠的严重失误。

　　第二题是用 SVG 对漫画进行重绘，总之是四个模型各有各的错法。

　　下一题不再是对已有事物进行重构，而是让模型自行设计专辑封面。

　　这一轮除了 Claude 和 Gemini 比较抽象，Grok4 的设计相对简单，但是可以算没“出错”。

　　此外，SVG 绘图其实是一项综合测试，对模型的知识储备同样有要求。

　　下面这道题中，模型被要求绘制三羧酸循环（又名柠檬酸循环、克雷布斯循环）的图示，正确答案长这样：

　　选手们的作品则是这样：

　　从评论来看，o3 的图示是最准确的。

　　最后一题则是纯靠想象，参赛选手们被要求给自己画个自画像。

　　总得来看，不管是哪个模型，在这场以画图为形式的综合测试中，表现都还有很大提升空间。

　　高阶玩法：模拟专家协作环境

　　除了网友们各显神通，HyperWrite 的 CEO Matt Shumer 还展示了高阶玩法。

　　Matt 展示了一个名为“Expert Conductor”（专家调度器）的提示工程方法。

　　这个方法的核心是模拟一个专家协作的环境，让模型假想自己正在协调不同领域的“专家”进行实时合作，共同解决问题。

　　为了更好地骗过 Grok4，Matt 像模像样地提出了选择专家的要求，以及专家要干什么。

　　并且还进行了举例说明：

　　提示词的最后还有专家标签，以及再次强调的核心原则，之后就可以接上真正的任务目标了。

　　最终 Grok4 用 52 秒的时间完成了任务，Matt 表示 Grok4 的表现好到令人难以置信（黑块是 Matt 自己打的）。

　　当然，Grok4 的玩法肯定还有很多，比如有网友期待，什么时候开始挑战宝可梦。

　　你还有哪些新鲜的玩法呢，欢迎评论区交流。

[1]https://x.com/flavioAd/status/1943192967453511699

[2]https://x.com/mckaywrigley/status/1943385794414334032

[3]https://x.com/elonmusk/status/1943411225553240206

[4]https://x.com/alex_prompter/status/1943231978779877514

[5]https://x.com/KettlebellDan/status/1943342507468951668

[6]https://www.reddit.com/r/singularity/comments/1lwdzjd/svg_benchmark_grok_vs_gemini_vs_chatgpt_vs_claude/

[7]https://x.com/mattshumer_/status/1943433960798740777

作者：itwriter
来源：互联网
日期：2025-07-13
浏览 (4293)