国思软件 - 无需训练，直接「算出」最强AI！理想汽车发现端侧Scaling Law

　　新智元报道

　　编辑：定慧

　　如何把庞大的大模型塞进受限的车载芯片？面对端侧算力瓶颈，最新的「软硬协同设计定律」给出破局解法：只需输入芯片参数，即可免训练算出最优模型架构。同等算力下，模型智商跃升近 20%，研发周期从数月缩至一周。

　　如何把「大象」塞进冰箱？

　　这正是现代智能辅助驾驶正在努力完成的一个命题。

　　我们希望车子能拥有一个像爱因斯坦一样聪明的超级大脑，但现实的尴尬是：

　　你不可能在后备箱里塞进一个需要液冷的服务器机柜！

　　当云端大模型正在加速冲刺 AGI 的同时，具身智能、智能驾驶等真实物理场景却正面临着一个隐性的巨大焦虑：「小」。

　　如何把「大模型」塞进极其有限的「小空间」车载芯片或机器人控制核心里？

　　这就是目前智能驾驶、具身智能、VR 等领域碰到的一个现实问题：

　　被一块小小的芯片「卡住了脖子」。

　　智能驾驶正在迈向全场景智能，但车载算力平台撞上了一个核心悖论：

　　比如，一个在云端 GPU 上 10 毫秒就能完成的推理任务，到了车载芯片上可能要 300 毫秒。对自动驾驶来说，300 毫秒意味着车辆在高速上「盲开」了好几米。

　　所有巨头，英伟达、苹果、微软、谷歌都在想办法。

　　但是第一个给出理论级答案的，是一家中国车企。

　　2026 年 2 月，理想汽车基座模型 MindVLA 团队与国创决策智能技术研究所联合发布了一篇论文：《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》。

　　提出了面向端侧大语言模型的「硬件协同设计扩展定律」。

　　论文地址：https://arxiv.org/abs/2602.10377

　　这篇论文直面了当前最核心的挑战之一：

　　如何将越来越强大的大语言模型高效地部署在资源受限的「端侧设备」（如汽车、手机、机器人）上。

　　提到理想汽车，多数人的第一反应还是「增程式电动车的代表」。但审视其近两年的技术布局：自研 5nm 车规芯片马赫 100、开源操作系统星环 OS、自研基座大模型 MindVLA、端到端智驾全栈自研。

　　理想正在从一家以增程技术见长的汽车公司，蜕变为一家以智能驾驶和具身智能为核心的 AI 公司。

　　而这篇刚刚发布的论文，是理解这场转型最好的注脚。

　　大模型「上车」，卡住了！

　　如何将目前「最先进的 AI」装入汽车？

　　这里会遇到了一个巨大的矛盾：

　　一方面，希望车载 AI 模型尽可能地聪明、反应迅速，以确保驾驶安全和流畅的交互体验。这要求模型规模大、结构复杂。

　　另一方面，汽车内部的计算单元（芯片）受到严格的物理限制，包括功耗、散热、内存大小和成本。这要求模型必须小巧、高效。

　　传统的做法通常是「模型归模型，硬件归硬件」。

　　AI 研究者设计出性能强大的模型，然后由工程师想办法在硬件上进行优化和「塞入」。

　　这种方式效率低下，且往往无法达到真正的最优。

　　这就好比为一个 F1 赛车引擎设计了一个巨型卡车的底盘，二者无法完美匹配，引擎性能大打折扣。

　　而理想这篇论文正是为了解决这个「失配」问题，他们提出了一套系统性的方法：

　　在设计模型之初就将硬件的能力考虑进来，实现「软硬协同设计」（Hardware Co-Design）。

　　架构选择（右侧）与硬件平台（左侧）共同塑造损失-延迟帕累托前沿

　　软硬协同：连接模型与硬件的桥梁

　　如何衡量模型的「智慧」？

　　先来简单介绍下什么是损失-延迟帕累托前沿。

　　在 AI 领域，「损失」是衡量模型预测与真实答案之间偏差的指标。

　　损失越低，模型预测越准确，代表它越「聪明」、精度越高。你可以把它理解为「工作质量」。

　　延迟指的是 AI 给出反应需要多长时间。延迟越低，速度越快，代表它能做到「秒回」。你可以把它理解为「工作速度」。

　　帕累托前沿是一个经济学概念。

　　通俗地说，当你追求既要「质量高」（低损失），又要「速度快」（低延迟）时，你会遇到一个物理极限。

　　到了这个极限状态后，你不可能在不牺牲速度的前提下，让 AI 变得更聪明；也不可能在不牺牲聪明度的前提下，让 AI 跑得更快。

　　所有这些「最优的折中点」连起来的一条线，就叫「帕累托前沿」。

　　理想团队发现，模型的最终损失与其架构超参数（如网络深度、宽度、专家数量等）之间存在着可预测的数学关系。

　　通过对这个关系进行精确建模，就可以在不实际训练的情况下预测模型性能。

　　团队做了一件极其扎实的事——真的训了170 个不同架构的 Transformer 模型，每个用 100 亿 token 训练，覆盖 Dense（密集）和 MoE（混合专家）两大类，层数 4 到 48，宽度 256 到 4096，MoE 专家数 1 到 64。

　　目的就是拟合一条精度预测公式：

　　给定任意一组架构超参数，直接预测验证损失——不用真的训练。

　　关键数据：拟合精度达到R²=0.975（训练集）和R²=0.952（32 个全新架构的验证集）

　　在同时包含密集和稀疏模型的异质架构空间中，这个预测精度极其惊人。

　　模型有多聪明，算一下就知道。

　　通俗地说，理想团队找到了一个「计算器」，输入一个模型的设计方案，就能算出这个模型理论上能有多聪明。

　　如何衡量硬件的「性能」？

　　对于一块芯片而言，决定其运行速度的关键因素有两个：

　　峰值计算能力 (FLOPS)：芯片每秒能执行多少次浮点运算，如同工厂的生产线速度。

　　内存带宽 (Bandwidth)：芯片每秒能从内存中读取多少数据，如同工厂的物料供应速度。

　　一个程序的运行速度，取决于它究竟是被「计算」卡住了瓶颈，还是被「内存读取」卡住了瓶颈。

　　Roofline 模型正是这样一个经典的性能分析工具。

　　它可以根据一个任务的计算量和内存访问量，以及硬件的上述两个参数，精确地预测出该任务的理论运行时长，即「延迟（Latency）」。

　　理想团队利用 Roofline 模型也造了一个「计算器」，输入一个模型和一个硬件平台，就能算出模型在这块芯片上跑一次需要多长时间。

　　团队基于经典的 Roofline 模型，从第一性原理推导了 Transformer 端到端推理延迟的完整数学表达。

　　研究团队特别针对车载场景做了关键扩展：

　　首次系统建模了 KV 缓存、MoE 路由、注意力机制等大模型特有负载对车载 SoC 内存子系统的影响，在 Jetson Orin/Thor 平台上验证了普适性。

　　这个延迟模型有多高效？

　　20 分钟内就可以评估 5 万+种架构配置。

　　模型跑多快，也算一下就知道。

　　合二为一：帕累托最优搜索

　　接下来就是联合优化。

　　团队开发了PLAS 框架（Pareto-optimal LLM Architecture Search）：

　　给定芯片的算力、带宽和内存约束，自动找到使损失最小、同时延迟不超标的最优架构。

　　解集构成一条帕累托最优前沿——前沿上每个点，都是该延迟预算下能达到的最低损失。

　　你不可能在不增加延迟的情况下降低损失，也不可能在不增加损失的情况下减少延迟。

　　这就是「软硬协同设计定律」的本质：将模型精度和推理效率统一在同一数学框架下的联合优化理论。

　　这也是论文最硬核的部分：在不同硬件约束下，最优模型架构参数存在闭合解。

　　无需训练，给定芯片参数，直接算出模型架构最优解。

　　以下是团队推导出来的三个关键定理。

　　定理一：延迟约束下的「免费午餐」。

　　芯片速度是瓶颈，内存充裕（如车载高端平台）的场景下。

　　MoE 专家越多、每次激活越少越好。

　　为什么叫「免费」？MoE 中不管总共多少专家，每个 token 只激活K个来计算。

　　增加总专家数完全不影响推理延迟，但模型容量实打实增加了。

　　对自动驾驶的启示：在 sub-50ms 极限延迟下，应采用 top-1 路由，内存允许范围内最大化专家池。

　　定理二：内存约束下的「宽度-稀疏度定律」。

　　存储有限、速度够用（如4-8GB 边缘设备）的场景下。

　　结论是模型越宽，MoE 越应该稀疏。宽度每翻一倍，最优激活率下降约 2.3 倍。

　　比如，2B 参数模型推荐每次激活 2 个、总共 16 个专家；500M 参数模型推荐更密集的 MoE 配置。

　　以上都是有数学证明的最优解，不是拍脑袋的数据。

　　定理三：双重约束下的精确处方。

　　延迟和内存同时紧张（实际部署最常见的情况）的场景下，论文给出了预填充和解码两种阶段各自的精确闭合解。

　　不管芯片什么约束组合，定律都有对应公式。

　　颠覆认知的关键发现

　　除三大定理外，论文还揭示了几个违反直觉的设计原则：

稀疏架构全面碾压密集架构。
　　端侧 batch=1 场景下，帕累托最优设计 100% 是 MoE，没有 Dense 模型。大多数最优配置的专家激活比例为在8～16 个中激活1～2 个。
内存子系统比算力峰值更重要。
　　「宽而浅」的最优架构形态表明，内存带宽和缓存效率往往比理论 TOPS 更决定实际性能。
Prefill 和 Decode 对硬件需求截然不同。
　　芯片需要支持动态资源分配，而非固定流水线。
FFN 可以激进压缩。
　　最优 FFN 扩展比远低于传统4×，甚至可以低于1×，芯片的矩阵乘单元和激活函数单元需要更灵活的配比。
量化加速需要硬件原生支持。
　　INT8 量化仅实现 1.3-1.6 倍而非理论 2 倍加速，根源在于非线性算子和精度转换开销。下一代芯片需要在指令集层面提供混合精度计算的原生支持。

　　也就是说，没有通用芯片，只有场景最优芯片。

　　最优架构强烈依赖于具体硬件参数，从根本上证明了「算法定义芯片」的必要性。

　　用数据说话：19.42% 的碾压

　　理论再漂亮，没有实验验证都是空中楼阁。

　　团队在 NVIDIA Jetson Orin（一款代表性的端侧 AI 计算平台）上做了大规模验证：

　　通过延迟模型评估了 1942 种候选架构配置，精选 170 个进行完整训练（每个 100 亿 token）。

　　这可能是端侧 LLM 领域规模最大的系统性架构搜索实验——没有之一。

　　团队选取了 Qwen2.5-0.5B（通义千问 5 亿参数版本，端侧广泛使用的开源模型）作为基准。

　　先在 Orin 上实测其推理延迟，再从 PLAS 框架中选取相同延迟下的协同设计架构。

　　两者使用完全相同的训练数据和优化策略，公平对比。

　　结果：

Qwen2.5-0.5B 困惑度：63.14
协同设计架构困惑度：50.88

　　困惑度降低 19.42%!

　　而且这不是训练终点的「碰巧」——从训练曲线看，协同设计架构全程领先，优势来自架构本身，而非随机波动。

　　同时给出了不同硬件平台(Jetson Orin/Thor）上的帕累托最优前沿，验证了「硬件协同设计扩展定律」的跨硬件平台泛化性。

　　同样的芯片，跑同样快，但智商高了近 20%——这就是「软硬协同设计」的力量。

　　另一个同样重要的数据：架构选型时间从数月压缩到一周。

　　传统流程中，给一块新芯片选择最优 LLM 架构，需要反复训练、测试、调优，耗时数月。

　　有了协同设计定律后，流程变成：

　　输入芯片参数 → 定律计算最优架构 → 小规模验证校准 → 完成。

　　研发效率提升一个数量级！

　　这意味着当理想下一代自研芯片出来的时候，最优模型架构不需要再等数月适配期，使用「软硬协同设计定律」可以提前算出来。

　　端侧 AI 的 Scaling Law

　　如果说，OpenAI 的 Scaling Law 回答了「模型为何越大越聪明」。

　　理想这个定律回答：「在固定芯片上，模型怎么变到最聪明」。

　　OpenAI 的 Scaling Law 是云端大模型繁荣的基石。

　　在它出现之前，训练多大的模型、用多少数据往往依赖工程师的直觉（经验主导）。

　　论文地址：https://arxiv.org/pdf/2001.08361

　　它通过严谨的数学公式证明了模型的性能与计算量、参数量、数据量之间存在可预测的幂律关系。

　　Scaling Law 成功指导了大语言模型的迭代，使得巨头们敢于投入数亿美金去训练更大级别的模型。

　　而理想的 Hardware Co-Design Scaling Law 是向端侧迈出的关键一步。

　　它从约束优化理论出发推导出解析解，在给定的硬件物理极限和实际应用约束条件下，科学指导如何最优地分配端侧推理资源。

　　这是首个面向端侧 LLM 的、可操作的硬件协同设计扩展定律。

　　两者虽然约束条件和发力点不同，但在本质上殊途同归：

　　都是用数学和科学的确定性，消除了 AI 发展过程中的经验盲区与随机性。

　　从「堆算力」到「榨算力」

　　过去智驾竞争的叙事是「我的芯片比你大」。

　　但这篇论文证明：

　　芯片有多少 TOPS 和实际能发挥多少智能之间，存在巨大鸿沟。

　　100 TOPS 的芯片，模型架构不匹配，可能只发挥 30% 效能。

　　软硬协同设计定律要做的，就是把效能利用率拉到接近理论上限。

　　不是比谁芯片更大，是比谁更懂怎么用芯片。这才是降维打击。

　　「芯片-模型」联合开发新范式

　　这对理想即将量产的马赫 100 自研芯片意义重大。

　　马赫 100 是 5 纳米车规级芯片，2026 年将在全新理想 L9 搭载。

　　单颗马赫 100 的有效算力是英伟达 Thor-U 的 3 倍，全新 L9 的双马赫 100 芯片，有效算力就是 Thor U 的5-6 倍了。

　　之前传统的做法是，等芯片流片回来，花数月重新适配模型。

　　有了协同设计定律：输入芯片参数，定律直接算出最优 VLA 架构——芯片还没量产，最优模型已经算出来了。

　　配合理想的完整技术栈来看，从芯片到定律到系统到模型——这是一个完整的技术闭环。

马赫 100：提供硬件算力
协同设计定律：确保每一分算力被精准利用
星环 OS：统一软件架构和开发者生态
MindVLA：落地智能辅助驾驶大模型

　　基于这个定律，理想的自研芯片将不再是通用 AI 加速器，而是专为车载 VLA 系统优化的「算法原生芯片」——在架构层面原生支持稀疏计算、动态资源分配和混合精度推理。

　　这不仅是理想汽车从算法到芯片全栈自研能力建设的关键里程碑，也为行业提供了端侧大模型部署的科学方法论。

　　同时也为理想汽车的下一代智能驾驶系统提供数量级的能效提升。

　　摩尔定律在放缓——晶体管数量翻倍的时代正在终结。

　　「协同设计定律」标志着一条新曲线的开始：不靠芯片变快提升智能，靠更聪明地使用芯片提升智能。

　　理想团队计划开源相关代码和评测协议。

　　整个行业——汽车、机器人、IoT、移动端——都可以站在这个理论框架上，为自己的芯片找到最优的大模型架构。

　　真正的领先，从来不是简单的硬件堆砌，而是源于底层基础科学的突破。当理想率先用严谨的数学规律重构端侧 AI 的边界时，这种在底层理论上的深耕与引领，正是理想智能驾驶系统能够跨越算力瓶颈、持续领跑行业的最大底气。

　　在智能驾驶的下半场，能够定义底层规则的企业，才能真正主导全场景智能的未来体验。

无需训练，直接「算出」最强AI！理想汽车发现端侧Scaling Law

我们的产品

相关链接

关于我们

联系我们