国思软件 - 马斯克的最贵模型Grok4，能碾压人类博士，但“三观不正”他没提

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　出品 | 网易科技《态度》栏目

　　作者 | 袁宁

　　编辑 | 丁广胜

　　相比 GPT 5 的迟迟未到，以及 DeepSeek 的一次次小更新。跳过“3.5”，马斯克直接甩出版本“4”。

　　北京时间 7 月 10 日中午，马斯克的人工智能公司 xAI 终于发了最新模型 Grok4——不过，发布会依然迟到一个多小时。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　值得注意的是，在 Grok4 发布的前一周，xAI 才刚刚再获百亿美元融资，估值飙至 1130 亿，仅次于 OpenAI 的 3000 亿美元，远超 Claude 背后 Anthropic 的 615 亿美元。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　不知道是不是被 Grok 反犹言论引发的争议影响，这次发布会中，马斯克看起来没有往日兴奋。

　　但这并没有影响他在直播中火力全开：Grok 4 被他描述为“比所有研究生都聪明”，“全面超越博士水准，没有例外”，甚至放话称它将在明年开始“发明新技术”。

　　两个版本，最高订阅费 300 美元/月

　　此次发布的 Grok 4 分为两个版本

　　其中 Grok 4 为标准版本，支持单代理推理；Grok 4 Heavy 为多代理版本。两者均为纯推理模型，上下文窗口最高支持 256K tokens。

　　费用方面，Grok 4 目前仅面向付费用户开放，而 SuperGrok Heavy 版本的订阅费甚至高达 300 美元/月，远超 OpenAI Pro 200 美元/月的费用。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　同时，xAI 也同步开放了 Grok 4 的 API 权限，支持文字与视觉输入、文字输出，定价为每百万 tokens 输入 3 美元、输出 15 美元。

　　拿下“人类最后的考试”最高分

　　了解了模型的基本信息，下面来看最直观的各个测评得分。这部分在正式发布之前，X上就陆续有博主爆料。现在答案终于揭晓。

　　首先是 Grok 4 在“人类的最后考试” HLE（Human Level Evaluation）中的表现。这个测试包含 2500 个专家级问题，涵盖上百个学科，被称为超高难度基准测试。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　数据显示，Grok 4 无工具版本达到 25.4%（也就是解决了 25.4% 的问题），使用工具后升至于 38.6%。

　　而 Grok 4 Heavy 甚至取得了 44.4% 的成绩，直接大幅超越 Google Gemini 2.5 Pro 26.9% 的成绩。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　此外，在各项主流测评榜中，Grok 4 Heavy 也几乎都拿下第一。其中 GPQA 得分 88-89，刷新记录；在 AIME25 数学竞赛题中，Grok 4 Heavy 更是几乎取得满分。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　官方称，Grok 4 的训练量是 Grok 2 的 100 倍，其中推理相关数据的训练量更是提升了 10 倍。

　　用工具来理解世界

　　xAI 表示，Grok 4 的强项是“用工具来理解世界，并用来完成任务”。发布会上展示了多项具象能力，包括：

　　现实预测：分析 Polymarket 上的棒球比赛赔率，识别赔率误差并计算出 Alpha；

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　科学模拟生成：生成黑洞碰撞的 HTML 动画，调用文献检索、代码生成、图形渲染等多个工具；

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　主观概念理解：识别“最古怪的员工头像”，展现出对“古怪”这种模糊定义的理解；

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　语音生成：新增五种拟人化声音，“Eve”可即兴演唱歌剧，端到端延迟减半，语音更自然。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　发布会上，xAI 还公布了接下来几个月的产品节奏：

8 月：专用编码模型（Grok Code）上线；
9 月：发布多模态代理（Multi-modal Agent）；
10 月：发布视频生成模型（Video Generation Model）；

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　模型之外，系统问题仍待解

　　然而，就在发布会前一周，Grok 聊天机器人却因一系列激进内容上了头条。

　　Grok 3 在 X 平台连发数条反犹言论，称赞希特勒、使用“MechaHitler”作为自称，甚至被网友截图记录其对用户发布仇恨内容。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　xAI 被迫紧急删除相关帖子，并发声明称“将积极处理不当内容，禁止仇恨言论”。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　而这场争议正好发生在马斯克宣称 Grok “重大升级”的同一周——7 月 4 日，他在 X 上写道，“你们应该能感受到变化”。两天后，Grok 的提示词更新为：

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　“不会回避政治不正确的表达，只要有证据支撑。”但在后续更新中，该提示词被移除。

　　这些问题的背后是 xAI 的独特路径——借助社交平台 X 上亿级用户的实时行为数据，xAI 构建起一个“内容即数据、平台即分发”的 AI 闭环生态。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　自 3 月份完成对 X 的全资收购后，xAI 更是将 Grok 系列深度绑定在平台底层。

　　此次发布会上，马斯克并没有对争议问题进行直接回应。

马斯克的最贵模型 Grok4，能碾压人类博士，但“三观不正”他没提

　　Grok 4 无疑是一项突出的技术成就。但它的发布，也再次提醒我们：

　　当模型在表现出博士后级别推理能力的同时，也仍可能发出极端言论，真正的问题早已不只是技术维度，而是整个训练、部署、治理机制的系统问题。

　　在 AI 正以每月为单位发生跃迁的时代，如何在创造力与约束之间找到边界？如何保证“聪明的大脑”不成为“失控的扩音器”？

　　这，或许与模型 SOTA 一样值得关注。

马斯克的最贵模型Grok4，能碾压人类博士，但“三观不正”他没提

我们的产品

相关链接

关于我们

联系我们