国思软件 - 全球开发者组团训练，首个异步强化学习32B推理模型震撼来袭！数据已开源

　　新智元报道

　　编辑：英智好困

　　全球首个去中心化强化学习训练的 32B 模型震撼发布！无需授权，就能用自家异构计算资源参与其中，让编码、数学与科学领域的推理性能迈向新高度。

　　最近，全球第一个用去中心化强化学习训练的 32B 模型——INTELLECT-2 正式发布！

　　任何人都能用自己的异构计算资源参与，无需授权。

　　这种全新的范式，让去中心化训练在编码、数学和科学领域，迈向前沿的推理性能。

　　INTELLECT-2 是大规模去中心化强化学习的开端，他们的下一步计划是用强化学习训练端到端智能体。

　　去中心化强化学习正处于起步阶段，若能汇聚社区和各方贡献，开源 AI 有望超越闭源实验室。

　　AI 社区对这项工作给出了非常积极的肯定。

　　随着 OpenAI o1 和 DeepSeek R1 的发布，出现了预训练以外的扩展范式，借助 RL 进行优化，让模型有更多时间进行推理。

　　之前发布的成果曾探讨，为何通过 RL 训练的推理模型，相比标准的 LLM 预训练，更适合去中心化训练。

　　INTELLECT-2 将有力地证实这一观点。

　　博客链接：https://www.primeintellect.ai/blog/intellect-2

　　全球首个去中心化强化学习 32B 模型

　　过去一年，研究者致力于构建所有关键的开源组件，让 INTELLECT-2 具备前沿的推理性能，支持异构计算节点，并允许无需授权的贡献，能对 32B 参数模型进行去中心化 RL 训练：

prime-RL：新推出的开源库，用于完全异步的去中心化 RL，基于具备容错的去中心化训练框架 prime 开发。
SYNTHETIC-1 & GENESYS：用于 RL 任务众包和验证环境的库。
TOPLOC：实现高效、可验证的推理方法，用于验证 INTELLECT-2 中所有去中心化 rollout 节点的计算。
协议测试网：提供基础设施和经济激励，用于聚合和协调全球计算资源，打造真正自主的开源 AI 生态系统。

　　Prime-RL：去中心化训练框架

　　INTELLECT-2 基础设施主要由三个组件构成：

推理采样节点（Inference Rollout Workers）：一组去中心化节点，用最新的策略模型，从环境中收集推理轨迹（reasoning rollouts），并计算相应的奖励。
TOPLOC 验证节点（TOPLOC Validators）：负责高效验证无需授权的 rollout 工作节点的推理计算，打造无需信任的系统。
GRPO 训练节点（GRPO Training Workers）：从去中心化推理采样节点收集到新生成的数据后，采用 DeepSeek 的 GRPO 训练方法进行训练。训练完成后，这些训练节点会通过 Shardcast 库，将更新后的权重广播给所有推理节点，以启动下一轮数据收集。

　　该基础设施具备以下特性：

完全消除通信开销：通过异步强化学习，新策略模型的广播与正在进行的推理和训练完全重叠，通信不再成为瓶颈。
支持异构推理节点：允许任何人按自己的节奏生成推理轨迹（reasoning traces），跨节点处理速度没有统一要求。
资源需求低：在这种训练设置中，占计算资源大头的推理节点可以在消费级 GPU 上运行。例如，配备 4 块 RTX 3090 GPU 的机器，足以支持 32B 参数模型的训练。
实现高效验证：推理计算的验证过程，不会引入训练瓶颈。

　　异步强化学习

　　RL 在本质上比传统的 LLM 预训练更具异步性。在去中心化 RL 中，数据收集和网络训练可以分开进行。

　　多个节点在并行环境中运行，各自异步收集经验数据，中央学习器负责接收和处理这些数据。

　　由于经验数据到达的时间不同，且来自状态空间的不同部分，每个步骤的发生速率也有所不同。

　　异步强化学习在 Tulu 3 和 Llama 4 中得到了成功应用，采用单步异步强化学习方法，提升了训练效率。

　　消融实验表明，即使采用四步异步训练（即推理节点使用的策略模型落后四步），也能复现 DeepScaleR 的结果，且不会降低模型性能。

　　这样的异步程度，在去中心化 RL 训练中，即使全局互联较弱，也能将通信时间完全隐藏在计算过程中。

　　同步 DeepScaleR 训练与异步 Prime-RL 的比较：即使延迟增加（最多四步），Prime-RL 的性能仍能与同步基线媲美

　　此外，异步强化学习不仅实现了去中心化训练设置，还通过分别优化训练和推理引擎，进一步提高了效率。

　　例如，在 prime-rl 库中，rollout 节点可以利用 vLLM，及全套推理优化技术。

　　完全异步的在线 RL 训练框架 prime-rl 已开源，任何人都能借此开启全球去中心化 RL 训练。

　　Shardcast

　　基础设施中的一个关键组件，Shardcast 是能尽快将新策略模型从训练节点广播到所有去中心化推理节点的机制。

　　Shardcast 是一个通过基于 HTTP 的树状拓扑网络分发大型文件的库，由以下部分组成：

源服务器（Origin Server）：作为根节点，将大文件分片，并通过 HTTP 提供分片服务。
中间节点（Middle Nodes）：作为中间服务器，从上游服务器下载分片，并以流水线方式转发。
客户端节点（Client Nodes）：下载分片并重新组装成原始文件。

　　TOPLOC 验证

　　TOPLOC 是一种用于可验证推理的局部敏感哈希方案，旨在检测推理过程中的恶意修改。

　　它能实现以下功能：

检测推理过程中对模型、提示或精度的修改。
有效应对 GPU 硬件的不确定性，这是可验证计算中的主要挑战之一。TOPLOC 在不同类型的 GPU、张量并行配置和注意力内核上都能可靠运行。
验证速度比生成速度快得多。

　　在 INTELLECT-2 中对 TOPLOC 进行生产环境测试，任何人都能以无需授权的方式贡献 GPU 资源。

　　协议测试网

　　几周前，团队宣布了公共协议测试网的启动，旨在实现真正自主的开源 AI 生态系统。

　　今天，首个无需授权的计算池开放，任何人都能在自己的 GPU 上运行协议测试网节点。

全球规模的计算资源聚合：节点设计允许任何人在全球任何计算设备上运行，加入去中心化网络，并最终因节点所做的贡献获得奖励。这有助于扩展规模，无授权地整合来自全球的数据中心资源。
为完全去中心化训练奠定基础：所有加入计算池的节点都以点对点（peer-to-peer）的方式进行通信和协调。这为完全去中心化、无授权地训练和微调开源模型奠定了基础，对构建真正自主的开源 AI 生态系统至关重要。

　　除了对基础设施进行多项改进，在协议层面也有其他关键进展。

检测和防范攻击与欺诈的机制：将 TOPLOC 验证集成到节点中，实现高效验证，有助于识别伪造 GPU 或污染数据集的行为。
鼓励诚实行为的激励：为减少不诚信行为，尝试采用经济激励，抑制伪造 GPU 或提交虚假数据等恶意行为。具体做法是要求节点预先抵押一定的资金，如果节点被认定存在不诚信行为，这些抵押资金将被扣除。

　　此外，团队为节点的工作设定了 24 小时的验证期，期间若发现问题，节点工作将被判定无效并扣除相应奖励。如果节点出现恶意行为或试图钻机制的空子，最多会扣除 24 小时的奖励。

　　模型训练详情

　　INTELLECT-2 的目标是训练出一个具有可控思考预算的前沿推理模型。

　　用户和开发者可通过系统提示词，指定模型在得出最终解决方案前，对一个问题应思考的 token 数量。

　　这种方法能让训练出的模型在实际应用中更加高效。

　　近期的研究（如 ThinkPrune、L1 和 Deepscaler）表明，经过专门训练、在严格约束下进行推理训练的模型，几乎能解决所有无约束推理模型可解决的问题，且速度更快，推理成本也更降低。

　　通过提示控制推理预算，用户既能利用这一优势，又能在遇到极具挑战性的问题时，选择更长的推理时间。