国思软件 - Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

　　金磊发自凹非寺

　　量子位 | 公众号 QbitAI

　　全球最快的开源大模型来了——速度达到了每秒 2000 个 tokens！

　　虽然只有 320 亿参数（32B），吞吐量却是超过典型 GPU 部署的 10 倍以上的那种。

　　它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）和初创公司 G42 AI 合作推出的 K2 Think。

　　名字是不是有点熟悉？

　　没错，它和月之暗面前不久推出的 Kimi K2 在命名上是有点小撞车，不过阿联酋这个多了个“Think”。

　　但非常有意思的一点是，在 K2 Think 的背后，确实有“made in China”的味道。

　　因为从 HuggingFace 中的 Model tree 来看，K2 Think 是基于 Qwen 2.5-32B 打造的：

　　而且“全球最快开源 AI 模型”之外，MBZUAI 官方还称自家的 K2 Think 是“有史以来最先进的开源 AI 推理系统”。

　　那么它的实力到底几何？我们继续往下看。

　　实测速度均超过 2000 tokens/秒

　　目前，K2 Think 已经给出了可以体验的地址（见文末）。

　　我们先小试牛刀测试一把 IMO 的试题：Let a_n = 6^n + 8^n. Determine the remainder when dividing a_{83} by 49.

　　可以肉眼看到，在没有任何加速的情况下，K2 Think 在思考过后输出答案的速度，真的就是“啪的一下”。

　　从底部给出的速度来看，已经达到了2730. 4 tokens/秒。

　　接下来，我们用中文来测试一个经典问题：Strawberry 这个单词里面有几个字母R？

　　速度依旧保持在了 2224.7 tokens/秒，并且给出了正确答案：3 个R。

　　我们再来实测几道AIME 2025的数学题：Find the sum of all integer bases $b>9$ for which $17_{b}$ is a divisor of $97_{b}$.

　　Find the number of ordered pairs $(x，y)$， where both $x$ and $y$ are integers between $-100$ and $100$， inclusive, such that $12x^{2}-xy-6y^{2}=0$.

　　可以看到，K2 Think 最大特点就是所有问题均能保持在超过 2000 tokens/秒的速度，并且就目前实测结果来看，生成的答案均是正确。

　　但从功能角度来看，目前 K2 Think 还不支持文档传输，以及多模态等能力。

　　不过 MBZUAI 的高级研究员Taylor W. Killian在X上也给出了解释：这个模型主要为数学推理而开发。

　　技术报告也已发布

　　从体量上来看，K2 Think 仅有32B，但官方却表示，它已经可以与 OpenAI 和 DeepSeek 旗舰推理模型的性能相当。

　　从测试结果来看，K2 Think 在多项数学基准测试中，拿下了较为理想的分数，例如 AIME’24 90.83 分、AIME’25 81.24 分、HMMT25 73.75 分，以及 Omni-MATH-HARD 上取得 60.73 分的成绩。

　　并且 K2 Think 团队已经发布技术报告：

　　从整体来看，K2 Think 团队主要从六个方面做到了技术创新：

长链路思维的监督微调（SFT）：通过精心设计的链式推理数据，训练模型逐步思考，而不是直接给答案，使其在复杂问题上更有条理。
可验证奖励的强化学习（RLVR）：模型不是依赖人类偏好打分，而是直接以答案对错为奖励信号，显著提升数学、逻辑等领域的表现。
推理前的智能规划（Plan-Before-You-Think）：先让一个规划代理提炼问题要点，制定解题大纲，再交给模型展开详细推理，就像人类先列提纲再解题一样。
推理时扩展（Best-of-N 采样）：对同一问题生成多个答案，再挑选最佳结果，从而提高正确率。
推测解码（Speculative Decoding）：在推理时并行生成和验证答案，减少冗余计算，加速输出。
硬件加速（Cerebras WSE 晶圆级引擎）：依托全球最大的单芯片计算平台，实现单请求每秒超 2000 tokens 的生成速度，使长链路推理也能保持流畅的交互体验。

　　与此同时，研究团队还对 K2 Think 进行了系统的安全测试，包括拒绝有害请求、多轮对话鲁棒性、防止信息泄露和越狱攻击等，整体达到了较高水平。