用国产GPU训练的国产大模型来了!能耗暴降97.7%

  智东西

  作者陈骏达

  编辑心缘

  智东西 9 月 10 日报道,9 月 5 日,中国科学院自动化研究所发布了类脑脉冲大模型“瞬悉 1.0”(SpikingBrain-1.0)的技术报告。SpikingBrain-7B 开源模型仅用主流大模型2% 的预训练数据,就实现了 Qwen2.5-7B 90% 的性能,并与 Llama-3.1-8B 等众多开源 Transformer 模型相媲美的性能。

  中科院自动化研究所称,这是我国首次提出大规模类脑线性基础模型架构,也是我国首次在国产 GPU 算力集群上构建类脑脉冲大模型的训练和推理框架。

  SpikingBrain 训练和推理的全过程均在国产算力上完成,使用的是由沐曦股份曦云 C550 GPU 组成的集群。在训练过程中,集群连续运行 2 周未中断,这也证明了构建国产自主可控的新型非 Transformer 大模型架构生态的可行性。

  除了极高的数据效率之外,SpikingBrain 还在推理效率上实现数量级提升。在 100 万个 token 上下文场景下,SpikingBrain-7B 生成首个 token 的耗时,比 Qwen2.5-7B 降低了 96. 2%。

  这一特性也使得 SpikingBrain 尤其适合超长序列处理任务,如在法律和医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA 序列分析、分子动力学轨迹等。

  在能耗方面,该模型的平均乘加运算能耗相比传统 FP16 和 INT8 运算,分别降低了 97. 7% 和 85. 2%。

  ▲SpikingBrain-1.0 技术报告

  SpikingBrain-1.0 共有 7B 参数量和 76B 参数量两个版本。9 月 3 日,7B 版本的模型已在 GitHub、魔搭等平台开源。76B 版本的模型暂未开源,但提供了体验链接。

  ▲SpikingBrain-1.0 体验界面

  开源地址:

  https://github.com/BICLab/SpikingBrain-7B

  技术报告:

  https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

  体验链接:

  https://controller-fold-injuries-thick.trycloudflare.com/

  一、Transformer 遇上效率瓶颈,从人类大脑找灵感

  为什么需要新型非 Transformer 架构的大模型?打造 SpikingBrain 的联合团队认为,Transformer 架构面临一个固有缺点:训练计算开销随序列长度呈平方级增长,推理时的显存占用也随序列长度线性增加,带来海量资源消耗。这限制了模型处理超长序列(100 万个 token 以上的序列)的能力。

  Transformer 架构本质上依赖“外生复杂性”,即通过堆叠更多神经元和更大规模计算来提升智能水平。与此对比,人脑以极低的能耗(约为 20W)实现了高度复杂的智能,其神经元具有丰富的内部动力学与多样性。

  这意味着大模型或许存在另一条“内生复杂性”的发展路径,通过充分利用生物神经网络在神经元和神经环路上的结构和功能特性,打造下一代模型架构。

  低功耗脉冲神经网络(SNN)方案,被学界认为是通往更通用 AI 系统的新一代低功耗类脑神经网络方案之一。其工作方式与大脑类似,只在需要的时候发送信号,因此功耗较低。

  研究发现,复杂的脉冲神经元可以用几个小神经元组合来实现同样的效果,这让构建高效的类脑网络成为可能。

  基于上述理论研究,SpikingBrain 团队在模型架构中集成了混合高效注意力、MoE 模块和脉冲编码三大核心组件。

  1、混合高效注意力

  注意力机制是大语言模型的核心计算单元。SpikingBrain 整合了不同注意力机制的优势,7B 版本模型采用层间混合的线性注意力与 SWA,兼顾全局信息检索和局部依赖。

  而更大规模的 SpikingBrain-76B 则使用层内并行混合,将线性、SWA 与全量 softmax 注意力结合,同一层中并行运行多种注意力机制,可高效处理全局信息、局部依赖和长程依赖。

  ▲SpikingBrain 整体模型架构

  2、混合专家模块

  SpikingBrain 从 Qwen2.5-7B-Base(稠密模型)扩展而来。为了在现有稠密模型的基础上高效扩展,得到稀疏的混合专家模型,SpikingBrain 团队使用了上采样(Upcycling)技术。

  这一方法的核心是通过参数复制和输出缩放,使扩展后的模型在初始状态下与原模型保持一致,从而避免性能损失。

  3、脉冲神经元

  脉冲神经元是脉冲神经网络的基本单元。工程应用中常见的 LIF(Leaky Integrate-and-Fire)模型,能在一定程度上模拟生物神经元的核心特性。但 LIF 存在神经元过度沉默或过度激活问题,从而影响模型精度与能效的平衡。

  为解决这些问题,SpikingBrain 团队提出了自适应阈值脉冲神经元(Adaptive-threshold Spiking Neurons),可保持神经元适度激活,避免过度兴奋或静息。

  二、3 个环节完成模型转换,全面适配国产 GPU 集群

  在训练过程中,SpikingBrain 团队将 Qwen2.5-7B-Base 转换为类脑脉冲大模型,主要包含 3 个环节。

  持续预训练和长序列扩展中,模型使用了约 150B tokens 的数据,将序列长度从 8K 逐步扩展至 128K。其训练数据量仅占从头训练所需的2%,实现了高效模型转换。

  监督微调环节中,通过使用不同领域的数据集以及由 DeepSeek-R1 蒸馏得到的高质量推理数据集,模型在通用知识、对话和推理等方面的能力逐步提升。

  之后,模型还需要经过脉冲化编码。受生物神经系统启发,SpikingBrain 团队提出将大模型的连续激活值转换为整数脉冲序列的策略。

  在推理阶段,整数脉冲计数会被展开成稀疏脉冲序列,以适配事件驱动计算。

  SpikingBrain 提供三种编码方式:二值脉冲简单低能耗;三值脉冲支持类似生物神经系统的兴奋-抑制调控,减少时间步和脉冲总数;二进制脉冲可在高计数场景下显著降低计算量和能耗。

  ▲三种脉冲方案示意图

  上述脉冲化方案可在 GPU 上兼容运行,但 GPU 无法完全利用脉冲信号“事件驱动、稀疏异步”的核心优势。要完全释放本方案的低能耗潜力,需要结合专用异步硬件(如类脑芯片、脉冲处理器)。

  SpikingBrain 仍然选择了在国产沐曦 GPU 集群上进行训练,沐曦软件平台通过MoE 优化、计算通信并行、显存优化、算子融合和自动调优等手段实现适配。

  这一适配过程包括 Triton 适配、CUDA 向 MACA(沐曦兼容 CUDA 的软件栈)框架迁移两部分。这两条路径针对模型内部不同算子进行优化,结合形成适用于沐曦 GPU 的硬件适配方案。

  ▲沐曦平台上的 CUDA 和 Triton 算子适配

  在适配过程中,下游用户可以在保持原有编程习惯和接口调用方式的前提下使用,无需对模型代码进行大量修改。同时,平台提供调试和性能分析工具,便于开发者观察模型在硬件上的执行情况,并进行必要的微调和优化。

  训练大型语言模型通常超出单个 GPU 的显存容量,因此,SpikingBrain 团队结合数据并行、流水线并行、专家并行和序列并行等分布式训练技术,将计算和存储负载分散到多个 GPU 上。

  三、恢复基座模型 9 成性能,集群连续运行 2 周未中断

  在下游任务评测中,SpikingBrain-7B 在多个基准测试上恢复了基座模型 Qwen2.5-7B 约 90% 的性能,整体水平与 Mistral-7B、Llama-3-8B 等先进 Transformer 模型相当,表明高效线性注意力在降低推理复杂度的同时仍能保持较强的建模能力。

  SpikingBrain-76B 混合线性 MoE 模型几乎完全恢复了基座模型性能。

  经过三阶段 SFT 对齐训练后,SpikingBrain-76B 在通用知识、长序列建模及指令跟随能力上,与同量级开源对话模型相当,同时保持预训练获得的通用能力,未出现过拟合现象,显示了架构在对齐训练中的稳定性和可扩展性。

  在长序列推理场景中,SpikingBrain-7B 模型在 100 万个 token 长度下 TTFT(生成第一个 Token 所需时间)相比 Transformer 架构加速达到 26.5 倍,400 万 Token 长度下加速超过 100 倍。

  训练性能方面,7B 模型在 128K 序列长度下的训练吞吐量为 Qwen2.5-7B 的 5.36 倍,这与推理性能提升基本一致。

  同时在手机 CPU 端 64K、128K、256K 长度下,SpikingBrain 较 Llama3.2 的同规模模型推理速度分别提升 4.04 倍、7.52 倍、15.39 倍。

  SpikingBrain-7B 在训练过程中的每秒每 GPU 处理 token 量达到 1558 个,模型 FLOPs 利用率达 23.4%,显示了较高计算效率和资源利用率。集群在连续两周运行期间未发生中断,体现了国产硬件和软件生态系统的可靠性和鲁棒性。

  脉冲统计显示,7B 版本模型实现了超过 69.15% 的稀疏度,长序脉冲占比约 1.85%,这为低功耗的类脑大模型运行提供有力支撑。

  结合异步事件驱动硬件计算,平均乘加运算能耗相比 FP16 和 INT8,分别实现 97.7% 和 85.2% 的能耗降低。这表明,将脉冲驱动计算与量化相结合,能够有效大幅降低能耗开销,同时做到精度损失可控。

  四、一手体验 76B 版本生成效果,在小球弹跳上翻车了

  在官方试用网页中,智东西对 SpikingBrain-76B 模型的能力进行了一手体验。在这一网页中,模型的最大生成长度被限制为大约 8000 个 token 及以下,超过后会直接中止回答。

  ▲SpikingBrain-76B 模型的高级参数设置页面

  我们首先让 SpikingBrain-76B 介绍一下“何为类脑脉冲大模型”,这主要是为了考察 SpikingBrain-76B 的理解与表达能力和世界知识储备。

  由于使用了 DeepSeek-R1 蒸馏得到的高质量推理数据集,SpikingBrain-76B 的思维链风格与 DeepSeek-R1 颇为接近,同样拥有许多口语化表达。

  SpikingBrain-76B 给出的回答结构清晰,内容也基本正确。不过,它称 Transformer 能效比要优于类脑脉冲大模型,这与学界的主流观点是相悖的。

  在小球弹跳这一考验模型编程与物理规律理解力的题目上,SpikingBrain-76B 有点“翻车了”。它打造的网页十分原始,小球也未能在六边形内自然弹跳,而是卡在了画面正中央。

  我们还让 SpikingBrain-76B 回答了 9.8-9.11 这样的算术题。在 2048 个 token 的最大生成长度设定下,模型直接提示思考长度超过生成限制。

  当最大生成长度被设置为约 8000 个 token 时,SpikingBrain-76B 通过列竖式给出了正确回答。

  中国科学院自动化研究所在网页上提示道,模型在访问高峰时反应较慢。在我们的实际体验过程中,一轮对话往往要 20 秒左右才能完成。

  结语:大模型全栈国产自主可控再添进展

  目前,国内已有多家企业和高校探索了非 Transformer 的模型架构,除了中国科学院自动化研究所本次发布的 SpikingBrain 之外,上海交通大学也曾打造一款脑启发大语言模型,采用“信号全连接流动”机制模拟人脑的语义编码和信号传播方式。

  这类受大脑计算方式启发的模型架构,在计算效率上与 Transformer 架构相比有明显优势,在与国产算力硬件结合后,有望走出一条大模型国产自主可控的新路径。