国思软件 - 马斯克Grok 4逆天跑分泄露，「人类最后考试」豪取45%全场第一！

　　新智元报道

　　编辑：定慧好困

　　Grok 4 跑分提前泄露，在「人类最后考试」中高达 45% 的得分，远超 Gemini 与 Claude，成为当前测试中最强模型之一。马斯克表示 Grok 4 以「第一性原理」构建推理机制，Grok 4 有望改写 LLM 格局。

　　Grok 4 马上就来，马斯克说的！

　　甚至，现在部署的 Grok，已经在能力上有了显著的提升。

　　与此同时，网友 LEGIT 的一张截图，更是直接泄露了 Grok 4 和 Grok 4 Code 在多个关键基准评测上的跑分。

　　目前，这一消息已经得到了 AI 圈知名大佬 Tibor Blaho 的确认。

　　根据泄露的数据，Grok 4 在 GPQA、AIME 25 和 SWE-bench 评测中可谓是「遥遥领先」，全面碾压谷歌 Gemini 2.5 Pro、OpenAI o3 和 Claude 4 Opus。

GPQA（研究生级物理和天文学问题）：Grok 4 得分 87-88%，略优于 Gemini 2.5 Pro 的 86.4%，明显超过 Claude 4 Opus 的 79.6%。
AIME 25（2025 美国数学邀请赛）：Grok 4 得分 95%，大幅超越 Claude 4 Opus 的 75.5%，并优于 OpenAI o3 的 88.9%。
SWE-bench（真实软件工程问题）：Grok 4 Code 得分 72-75%，略优于 Claude Opus 4 的 72.5%，略高于 OpenAI o3 的 71.7%。

　　不仅如此，Grok 4 还在覆盖范围最广、难度最高的终极闭卷学术基准「人类最后的考试」（Human Last Exam，HLE）上取得了默认 35%、最高 45%的惊人高分。

　　这也意味着，最强状态下的 Grok 4，得分是现任老大 Gemini 2.5 Pro 的2 倍——高出了整整 24 个百分点。

　　相比正确率只有 10.7% 的 Claude 4 Opus，成绩直接翻了 4 倍还多。

　　HLF 这门考试堪称残酷，是专为挫败 LLM 的锐气而设计：

横跨 100 多个学科的2,500 道专家级试题
14% 为多模态题型（文本+图像）
24% 的问题为多项选择题
设有防记忆陷阱和隐藏测试集，用于阻止「作弊式训练」

　　下图是所含知识的高层次可视化图表，其中的每个类别还包含有很多具体学科。

　　项目主页：https://lastexam.ai/

　　要知道，大多数前沿模型在这一分数面前都望尘莫及。

　　如果此次泄露属实，那么 Grok 4 就算闯过了 AI 基准测试领域最难的关卡之一。

　　由于在 HLF 的得分异常地高，Grok 4 的发布再度引起了社区的广泛讨论。

　　是的，如果属实，这意味着该模型具有极其强大的世界知识。

　　看到如此之强的 Grok 4，网友们已经迫不及待了，纷纷在线催更：

　　Grok 4 源代码泄露

　　马斯克此前的采访中，曾经透露说。

　　Grok 3.5 正在尝试从第一性原理出发进行推理，也就是将物理学的方法应用到思维过程中。

　　Grok-3.5 正是如今的 Grok 4，老马决定一步到位，从 Grok-3 直接到 Grok 4，不再挤牙膏了。

　　这似乎预示着 Grok 4 的能力会非常大的突破！

　　几天前，X上就有人发现在 xAI 控制台源代码中发现的 2 个 Grok 4 模型：Grok 4 和 Grok 4 Code

　　Grok 4：

最新、最卓越的旗舰模型，在自然语言、数学及推理领域展现出无与伦比的性能，堪称万能的完美之选

　　Grok 4 Code：

专为编程伴侣量身打造的模型。可以向它咨询代码相关的问题，或直接将其嵌入到代码编辑器中

　　也有人持怀疑态度

　　当然也有人似乎是被之前 Grok 3 的炒作「伤透了心」。

　　HLE 的创建者 Dan Hendrycks 是 xAI 的亲密顾问（相比其他实验室而言）。

　　网友们想知道 Dan Hendrycks 是否只提供了安全方面的建议，还是以某种方式给出了增强科学知识细节的具体研发建议。

　　这不禁让人们联想到此前 Llama 4 的翻车闹剧，也是因为提前进行了「针对性的训练」。

　　马斯克亲自带货

　　马斯克曾在 6 月 27 日发帖称，正和团队加班加点的研发 Grok。

　　将在 7 月 4 日后发布 Grok 4，按照美东时间，今天开始，任何时候都有可能见证 Grok 4 的发布。

　　马斯克特地强调了，需要一次大型训练来开发了「特殊」的编码模型。

　　在 5 月 20 日的微软 Build 2025 大会上，马斯克现场讲述了 Grok 3.5（Grok 4）将从第一性原理出发进行构建。

　　马斯克：

　　尤其是在即将发布的 Grok 3.5 中，我们的目标是让模型从第一性原理出发进行推理。

　　也就是说，像物理学家那样思考，借用物理的工具来分析问题。

　　如果你想要探寻事物的本质真相，就必须把问题分解到最基本、最可能正确的公理层面，然后再从这些基础出发向上推理。

　　接着，你可以将最终结论与这些基本原理进行校验。在物理学中，如果你得出的结果违反了能量守恒或动量守恒，那你要么发现了诺奖级别的新理论，要么——更可能的是——你搞错了。

　　所以我们打造 Grok 3.5 的核心目标，就是以物理的基本原理为指导，应用这些方法来推理各种问题，力求以最小的误差，接近真实。

　　当然，出错是难免的，但我们的目标是持续减少这些错误。这个方向对于 AI 安全至关重要。

　　我长久以来都在思考 AI 安全问题，而我最终得出的结论，其实可以用一句老话来概括：诚实是最好的策略。

　　这不仅是道德要求，更是安全保障。当然我们也会犯错，但我们承诺会尽快修正这些错误。

　　我们也非常期待来自开发者社区的反馈——你们需要什么？我们哪里做错了？又该如何改进？

　　我们希望 Grok 成为一个令开发者充满期待的工具，一个他们的声音能真正被听到的平台。

　　Grok 将不断进化，努力满足开发者的需求。

　　编码能力成为必争之地

　　根据 Grok API 此前的模型推测，这次 Grok 4 Code 将是发布的重头戏，也许还会有 Grok 4 mini。

　　马斯克特地提到 Grok 4 的编码能力，也是受到如今各家的影响，编码能力称为了衡量新模型的试金石。

　　谷歌

Gemini2.5 包括改进的代码生成、复杂代码重构/转换、上下文管理、更好的 PR 评审能力，以及可定制命令等。
Gemini CLI 是近期推出的命令行 AI 助手，基于 Gemini2.5 Pro，可处理长达百万 token 的上下文，支持包括代码编写、调试、内容生成和任务管理于一体的多功能开发体验。

　　Anthropic