
来源:新智元
当前主流大模型基于 Transformer 架构、在 Scaling law 驱动下通过增加网络规模、算力资源和数据量提升智能水平并取得了巨大成功。
然而,Transformer 架构相对于序列长度具有二次方复杂度,使其训练和推理开销巨大,超长序列处理能力受限。
近日,中国科学院自动化研究所李国齐、徐波团队借鉴大脑神经元内部复杂工作机制,发布了国产自主可控类脑脉冲大模型 SpikingBrain (瞬悉)-1.0,能够以极低的数据量实现高效训练,模型具有线性/近线性复杂度,显著提升长序列的训练和推理效率,训练和推理全流程在国产 GPU 算力平台上完成。
网络端的试用端口网址:https://controller-fold-injuries-thick.trycloudflare.com
中文技术报告网址:https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
英文技术报告网址:https://arxiv.org/abs/2509.05276
模型代码网址:https://github.com/BICLab/SpikingBrain-7B
研究背景
现有主流大模型基于 Transformer 架构,其基本计算单元为点神经元模型:简单乘加单元后接非线性函数,这条简单神经元加网络规模拓展的技术路径可以被称为「基于外生复杂性」的通用智能实现方法。
如前所述,这一路径面临着功耗高、可解释性差等问题。
人脑是目前唯一已知的通用智能系统,包含约 1000 亿神经元和约 1000 万亿突触数量、具有丰富的神经元种类、不同神经元又具有丰富的内部结构,但功耗仅 20W 左右。
鉴此,李国齐研究团队相信还有另一条路径-「基于内生复杂性」的通用智能实现方法:即找到一条融合神经元丰富动力学特性、构建具有生物合理性和计算高效性的神经网络新路径,其将充分利用生物神经网络在神经元和神经环路上的结构和功能特性。
在该思路下,探索脑科学与人工智能基础模型架构之间的桥梁、构建新一代非 Transformer 的类脑基础模型架构,或将引领下一代人工智能的发展方向、为实现国产自主可控类脑大模型生态提供基础积累。
核心技术
SpikingBrain-1.0 基于脉冲神经元构建了线性(混合)模型架构,具有线性(SpikingBrain-7B)及近线性复杂度(SpikingBrain-76B,激活参数量 12B)的类脑基础模型(图1)。
图 1. SpikingBrain 框架概览
为解决脉冲编码时的性能退化问题,构建了自适应阈值神经元模型,模拟生物神经元脉冲发放的核心过程,随后通过虚拟时间步策略实现「电位-脉冲」的转换,将整数脉冲计数重新展开为稀疏脉冲序列。
借助动态阈值脉冲化信息编码方案,可以将模型中计算量占比 90% 以上的稠密连续值矩阵乘法,替换为支持事件驱动的脉冲化算子,以实现高性能与低能耗二者兼顾:脉冲神经元仅在膜电势累积达到阈值时发放脉冲事件,脉冲到达时触发下游神经元活动,无脉冲时则可处于低能耗静息状态。
进一步,网络层面的 MoE 架构结合神经元层面的稀疏事件驱动计算,可提供微观-宏观层面的稀疏化方案,体现按需计算的高效算力分配。
该团队在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示了现有线性注意力机制是树突计算的特殊简化形式,从而清晰地展示了一条不断提升模型复杂度和性能的新型可行路径。
基于这一理解以及团队前期工作,团队构建了与现有大模型兼容的通用模型转换技术和高效训练范式,可以将标准的自注意力机制转换为低秩的线性注意力模型,并适配了所提出的脉冲化编码框架。
此外,为实现国产算力集群对类脑脉冲大模型的全流程训练和推理支持,团队开发了面向国产 GPU 集群的高效训练和推理框架、Triton/CUDA 算子库、模型并行策略以及集群通信原语。
SpikingBrain-7B 和 SpikingBrain-76B 分别为层间混合纯线性模型和层内混合的混合线性 MoE 模型(图2)。
其中 SpikingBrain-7B 由线性注意力和滑窗注意力1:1 层间堆叠而成。而 SpikingBrain-76B 则包含 128 个 sink token、16 个路由专家以及 1 个共享专家;对于线性层,在第 [1, 2, 3, 5, 7, 9, 11] 层布置了 7 个稠密 FFN,其余层均实现为 MoE 层;
对于注意力模块在第[7, 14, 21, 28]层采用线性注意力 +Softmax 注意力(LA+FA)组合,在其他层均采用线性注意力 + 滑窗注意力(LA+SWA)组合。
在推理阶段,SpikingBrain 利用脉冲编码将激活值转换为整数计数用于 GPU 执行,或转换为脉冲序列用于事件驱动的神经形态硬件。
图 2. SpikingBrain 网络架构
性能亮点
SpikingBrain1.0 的长序列训练效率显著提升。SpikingBrain-1.0-7B 模型能以极低的数据量(约为主流大模型的2%),实现与众多开源 Transformer 模型相媲美的通用语言建模性能(表1)。
SpikingBrain-1.0-76B 混合线形模型通过扩展更多的参数量和更精细的注意力设计,基本保持了基座模型的性能,能使用更少的激活参数接近甚至优于 Llama2-70B、Mixtral-8*7B、Gemma2-27B 等先进的 Transformer 模型(表2)。
SpikingBrain-1.0-7B 模型在 Huggingface 框架下适配了多卡序列并行推理(使用 ZeCO 加上 P2P 通信),并支持 4M 长度的 Prefill。
结果显示,相比于使用标准注意力和 A2A 通信的 Qwen baseline,SpikingBrain-1.0-7B 在 512K 和 1M 长度下 TTFT(提交提示到生成第一个 Token 所需的时间)加速分别达到 13.88 倍和 26.5 倍,且随序列长度和卡数扩展具有几乎恒定的时间开销,在 4M 长度下 Qwen 已经无法评测,根据拟合 scaling 曲线,保守估计速度提升超过 100 倍(表4)。
团队将压缩到 1B 的 SpikingBrain-1.0 部署到 CPU 手机端推理框架上,在 64k-128k-256k 长度下较 Llama3.2 的 1B 模型 Decoding 速度分别提升 4.04x-7.52x-15.39x。
图 2 基于 CPU 移动推理框架下,不同输出长度的解码速度比较
对话 Demo 和网络试用端口:团队提供了 SpikingBrain-1.0-76B 模型的网络端的试用端口供大家体验,该模型基于 vLLM 推理框架部署在国产 GPU 集群上,可以支持数百人的并发请求。
为支持类脑研究生态的构建,团队开源了 SpikingBrain-1.0-7B 模型(详见技术报告)。
总结
本次发布的国产自主可控类脑脉冲大模型探索了脉冲神经元内生复杂神经动力学与线性注意力模型之间的机制联系,设计了线性模型架构和基于转换的异构模型架构,通过动态阈值脉冲化解决了脉冲驱动限制下的大规模类脑模型性能退化问题,实现了国产 GPU 算力集群对类脑脉冲大模型训练和推理的全流程支持。
超长序列的建模在复杂多智能体模拟、DNA 序列分析、分子动力学轨迹等超长序列科学任务建模场景中将具有显著的潜在效率优势。
未来该团队将进一步探索神经元内生复杂动态与人工智能基础算子之间的机制联系,构建神经科学和人工智能之间的桥梁,期望通过整合生物学见解来突破现有人工智能瓶颈,进而实现低功耗、高性能、支持超长上下文窗口的类脑通用智能计算模型,为未来的类脑芯片设计提供重要启发。