无需训练,直接「算出」最强AI!理想汽车发现端侧Scaling Law

  新智元报道

  编辑:定慧

  如何把庞大的大模型塞进受限的车载芯片?面对端侧算力瓶颈,最新的「软硬协同设计定律」给出破局解法:只需输入芯片参数,即可免训练算出最优模型架构。同等算力下,模型智商跃升近 20%,研发周期从数月缩至一周。

  如何把「大象」塞进冰箱?

  这正是现代智能辅助驾驶正在努力完成的一个命题。

  我们希望车子能拥有一个像爱因斯坦一样聪明的超级大脑,但现实的尴尬是:

  你不可能在后备箱里塞进一个需要液冷的服务器机柜!

  当云端大模型正在加速冲刺 AGI 的同时,具身智能、智能驾驶等真实物理场景却正面临着一个隐性的巨大焦虑:「小」

  如何把「大模型」塞进极其有限的「小空间」车载芯片或机器人控制核心里?

  这就是目前智能驾驶、具身智能、VR 等领域碰到的一个现实问题:

  被一块小小的芯片「卡住了脖子」。

  智能驾驶正在迈向全场景智能,但车载算力平台撞上了一个核心悖论:

  比如,一个在云端 GPU 上 10 毫秒就能完成的推理任务,到了车载芯片上可能要 300 毫秒。对自动驾驶来说,300 毫秒意味着车辆在高速上「盲开」了好几米。

  所有巨头,英伟达、苹果、微软、谷歌都在想办法。

  但是第一个给出理论级答案的,是一家中国车企

  2026 年 2 月,理想汽车基座模型 MindVLA 团队与国创决策智能技术研究所联合发布了一篇论文:《Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs》

  提出了面向端侧大语言模型的「硬件协同设计扩展定律」。

  论文地址:https://arxiv.org/abs/2602.10377

  这篇论文直面了当前最核心的挑战之一:

  如何将越来越强大的大语言模型高效地部署在资源受限的「端侧设备」(如汽车、手机、机器人)上。

  提到理想汽车,多数人的第一反应还是「增程式电动车的代表」。但审视其近两年的技术布局:自研 5nm 车规芯片马赫 100、开源操作系统星环 OS、自研基座大模型 MindVLA、端到端智驾全栈自研。

  理想正在从一家以增程技术见长的汽车公司,蜕变为一家以智能驾驶和具身智能为核心的 AI 公司。

  而这篇刚刚发布的论文,是理解这场转型最好的注脚。

  大模型「上车」,卡住了!

  如何将目前「最先进的 AI」装入汽车?

  这里会遇到了一个巨大的矛盾:

  一方面,希望车载 AI 模型尽可能地聪明、反应迅速,以确保驾驶安全和流畅的交互体验。这要求模型规模大、结构复杂。

  另一方面,汽车内部的计算单元(芯片)受到严格的物理限制,包括功耗、散热、内存大小和成本。这要求模型必须小巧、高效。

  传统的做法通常是「模型归模型,硬件归硬件」。

  AI 研究者设计出性能强大的模型,然后由工程师想办法在硬件上进行优化和「塞入」。

  这种方式效率低下,且往往无法达到真正的最优。

  这就好比为一个 F1 赛车引擎设计了一个巨型卡车的底盘,二者无法完美匹配,引擎性能大打折扣。

  而理想这篇论文正是为了解决这个「失配」问题,他们提出了一套系统性的方法:

  在设计模型之初就将硬件的能力考虑进来,实现「软硬协同设计」(Hardware Co-Design)。

  架构选择(右侧)与硬件平台(左侧)共同塑造损失-延迟帕累托前沿

  软硬协同:连接模型与硬件的桥梁

  如何衡量模型的「智慧」?

  先来简单介绍下什么是损失-延迟帕累托前沿

  在 AI 领域,「损失」是衡量模型预测与真实答案之间偏差的指标。

  损失越低,模型预测越准确,代表它越「聪明」、精度越高。你可以把它理解为「工作质量」

  延迟指的是 AI 给出反应需要多长时间。延迟越低,速度越快,代表它能做到「秒回」。你可以把它理解为「工作速度」

  帕累托前沿是一个经济学概念。

  通俗地说,当你追求既要「质量高」(低损失),又要「速度快」(低延迟)时,你会遇到一个物理极限。

  到了这个极限状态后,你不可能在不牺牲速度的前提下,让 AI 变得更聪明;也不可能在不牺牲聪明度的前提下,让 AI 跑得更快。

  所有这些「最优的折中点」连起来的一条线,就叫「帕累托前沿」。

  理想团队发现,模型的最终损失与其架构超参数(如网络深度、宽度、专家数量等)之间存在着可预测的数学关系

  通过对这个关系进行精确建模,就可以在不实际训练的情况下预测模型性能。

  团队做了一件极其扎实的事——真的训了170 个不同架构的 Transformer 模型,每个用 100 亿 token 训练,覆盖 Dense(密集)和 MoE(混合专家)两大类,层数 4 到 48,宽度 256 到 4096,MoE 专家数 1 到 64。

  目的就是拟合一条精度预测公式

  给定任意一组架构超参数,直接预测验证损失——不用真的训练。

  关键数据:拟合精度达到R²=0.975(训练集)和R²=0.952(32 个全新架构的验证集)

  在同时包含密集和稀疏模型的异质架构空间中,这个预测精度极其惊人。

  模型有多聪明,算一下就知道。

  通俗地说,理想团队找到了一个「计算器」,输入一个模型的设计方案,就能算出这个模型理论上能有多聪明。

  如何衡量硬件的「性能」?

  对于一块芯片而言,决定其运行速度的关键因素有两个:

  峰值计算能力 (FLOPS):芯片每秒能执行多少次浮点运算,如同工厂的生产线速度。

  内存带宽 (Bandwidth):芯片每秒能从内存中读取多少数据,如同工厂的物料供应速度。

  一个程序的运行速度,取决于它究竟是被「计算」卡住了瓶颈,还是被「内存读取」卡住了瓶颈。

  Roofline 模型正是这样一个经典的性能分析工具。

  它可以根据一个任务的计算量和内存访问量,以及硬件的上述两个参数,精确地预测出该任务的理论运行时长,即「延迟(Latency)」。

  理想团队利用 Roofline 模型也造了一个「计算器」,输入一个模型和一个硬件平台,就能算出模型在这块芯片上跑一次需要多长时间。

  团队基于经典的 Roofline 模型,从第一性原理推导了 Transformer 端到端推理延迟的完整数学表达。

  研究团队特别针对车载场景做了关键扩展:

  首次系统建模了 KV 缓存、MoE 路由、注意力机制等大模型特有负载对车载 SoC 内存子系统的影响,在 Jetson Orin/Thor 平台上验证了普适性。

  这个延迟模型有多高效?

  20 分钟内就可以评估 5 万+种架构配置。

  模型跑多快,也算一下就知道。

  合二为一:帕累托最优搜索

  接下来就是联合优化。

  团队开发了PLAS 框架(Pareto-optimal LLM Architecture Search)

  给定芯片的算力、带宽和内存约束,自动找到使损失最小、同时延迟不超标的最优架构。

  解集构成一条帕累托最优前沿——前沿上每个点,都是该延迟预算下能达到的最低损失。

  你不可能在不增加延迟的情况下降低损失,也不可能在不增加损失的情况下减少延迟。

  这就是「软硬协同设计定律」的本质:将模型精度和推理效率统一在同一数学框架下的联合优化理论。

  这也是论文最硬核的部分:在不同硬件约束下,最优模型架构参数存在闭合解。

  无需训练,给定芯片参数,直接算出模型架构最优解。

  以下是团队推导出来的三个关键定理。

  定理一:延迟约束下的「免费午餐」。

  芯片速度是瓶颈,内存充裕(如车载高端平台)的场景下。

  MoE 专家越多、每次激活越少越好。

  为什么叫「免费」?MoE 中不管总共多少专家,每个 token 只激活K个来计算。

  增加总专家数完全不影响推理延迟,但模型容量实打实增加了。

  对自动驾驶的启示:在 sub-50ms 极限延迟下,应采用 top-1 路由,内存允许范围内最大化专家池。

  定理二:内存约束下的「宽度-稀疏度定律」。

  存储有限、速度够用(如4-8GB 边缘设备)的场景下。

  结论是模型越宽,MoE 越应该稀疏。 宽度每翻一倍,最优激活率下降约 2.3 倍。

  比如,2B 参数模型推荐每次激活 2 个、总共 16 个专家;500M 参数模型推荐更密集的 MoE 配置。

  以上都是有数学证明的最优解,不是拍脑袋的数据。

  定理三:双重约束下的精确处方。

  延迟和内存同时紧张(实际部署最常见的情况)的场景下,论文给出了预填充和解码两种阶段各自的精确闭合解。

  不管芯片什么约束组合,定律都有对应公式。

  颠覆认知的关键发现

  除三大定理外,论文还揭示了几个违反直觉的设计原则:

  1. 稀疏架构全面碾压密集架构。

      端侧 batch=1 场景下,帕累托最优设计 100% 是 MoE,没有 Dense 模型。大多数最优配置的专家激活比例为在8~16 个中激活1~2 个。

  2. 内存子系统比算力峰值更重要。

      「宽而浅」的最优架构形态表明,内存带宽和缓存效率往往比理论 TOPS 更决定实际性能。

  3. Prefill 和 Decode 对硬件需求截然不同。

      芯片需要支持动态资源分配,而非固定流水线。

  4. FFN 可以激进压缩。

      最优 FFN 扩展比远低于传统4×,甚至可以低于1×,芯片的矩阵乘单元和激活函数单元需要更灵活的配比。

  5. 量化加速需要硬件原生支持。

      INT8 量化仅实现 1.3-1.6 倍而非理论 2 倍加速,根源在于非线性算子和精度转换开销。下一代芯片需要在指令集层面提供混合精度计算的原生支持。

  也就是说,没有通用芯片,只有场景最优芯片

  最优架构强烈依赖于具体硬件参数,从根本上证明了「算法定义芯片」的必要性。

  用数据说话:19.42% 的碾压

  理论再漂亮,没有实验验证都是空中楼阁。

  团队在 NVIDIA Jetson Orin(一款代表性的端侧 AI 计算平台)上做了大规模验证:

  通过延迟模型评估了 1942 种候选架构配置,精选 170 个进行完整训练(每个 100 亿 token)。

  这可能是端侧 LLM 领域规模最大的系统性架构搜索实验——没有之一。

  团队选取了 Qwen2.5-0.5B(通义千问 5 亿参数版本,端侧广泛使用的开源模型)作为基准。

  先在 Orin 上实测其推理延迟,再从 PLAS 框架中选取相同延迟下的协同设计架构。

  两者使用完全相同的训练数据和优化策略,公平对比。

  结果:

  • Qwen2.5-0.5B 困惑度:63.14

  • 协同设计架构困惑度:50.88

  困惑度降低 19.42%!

  而且这不是训练终点的「碰巧」——从训练曲线看,协同设计架构全程领先,优势来自架构本身,而非随机波动。

  同时给出了不同硬件平台(Jetson Orin/Thor)上的帕累托最优前沿,验证了「硬件协同设计扩展定律」的跨硬件平台泛化性。

  同样的芯片,跑同样快,但智商高了近 20%——这就是「软硬协同设计」的力量。

  另一个同样重要的数据:架构选型时间从数月压缩到一周。

  传统流程中,给一块新芯片选择最优 LLM 架构,需要反复训练、测试、调优,耗时数月。

  有了协同设计定律后,流程变成:

  输入芯片参数 → 定律计算最优架构 → 小规模验证校准 → 完成。

  研发效率提升一个数量级!

  这意味着当理想下一代自研芯片出来的时候,最优模型架构不需要再等数月适配期,使用「软硬协同设计定律」可以提前算出来。

  端侧 AI 的 Scaling Law

  如果说,OpenAI 的 Scaling Law 回答了「模型为何越大越聪明」。

  理想这个定律回答:「在固定芯片上,模型怎么变到最聪明」

  OpenAI 的 Scaling Law 是云端大模型繁荣的基石。

  在它出现之前,训练多大的模型、用多少数据往往依赖工程师的直觉(经验主导)。

  论文地址:https://arxiv.org/pdf/2001.08361

  它通过严谨的数学公式证明了模型的性能与计算量、参数量、数据量之间存在可预测的幂律关系。

  Scaling Law 成功指导了大语言模型的迭代,使得巨头们敢于投入数亿美金去训练更大级别的模型。

  而理想的 Hardware Co-Design Scaling Law 是向端侧迈出的关键一步。

  它从约束优化理论出发推导出解析解,在给定的硬件物理极限和实际应用约束条件下,科学指导如何最优地分配端侧推理资源

  这是首个面向端侧 LLM 的、可操作的硬件协同设计扩展定律。

  两者虽然约束条件和发力点不同,但在本质上殊途同归:

  都是用数学和科学的确定性,消除了 AI 发展过程中的经验盲区与随机性。

  从「堆算力」到「榨算力」

  过去智驾竞争的叙事是「我的芯片比你大」。

  但这篇论文证明:

  芯片有多少 TOPS 和实际能发挥多少智能之间,存在巨大鸿沟。

  100 TOPS 的芯片,模型架构不匹配,可能只发挥 30% 效能。

  软硬协同设计定律要做的,就是把效能利用率拉到接近理论上限。

  不是比谁芯片更大,是比谁更懂怎么用芯片。这才是降维打击。

  「芯片-模型」联合开发新范式

  这对理想即将量产的马赫 100 自研芯片意义重大。

  马赫 100 是 5 纳米车规级芯片,2026 年将在全新理想 L9 搭载。

  单颗马赫 100 的有效算力是英伟达 Thor-U 的 3 倍,全新 L9 的双马赫 100 芯片,有效算力就是 Thor U 的5-6 倍了。

  之前传统的做法是,等芯片流片回来,花数月重新适配模型。

  有了协同设计定律:输入芯片参数,定律直接算出最优 VLA 架构——芯片还没量产,最优模型已经算出来了。

  配合理想的完整技术栈来看,从芯片到定律到系统到模型——这是一个完整的技术闭环。

  • 马赫 100:提供硬件算力

  • 协同设计定律:确保每一分算力被精准利用

  • 星环 OS:统一软件架构和开发者生态

  • MindVLA:落地智能辅助驾驶大模型

  基于这个定律,理想的自研芯片将不再是通用 AI 加速器,而是专为车载 VLA 系统优化的「算法原生芯片」——在架构层面原生支持稀疏计算、动态资源分配和混合精度推理。

  这不仅是理想汽车从算法到芯片全栈自研能力建设的关键里程碑,也为行业提供了端侧大模型部署的科学方法论。

  同时也为理想汽车的下一代智能驾驶系统提供数量级的能效提升。

  摩尔定律在放缓——晶体管数量翻倍的时代正在终结。

  「协同设计定律」标志着一条新曲线的开始:不靠芯片变快提升智能,靠更聪明地使用芯片提升智能。

  理想团队计划开源相关代码和评测协议。

  整个行业——汽车、机器人、IoT、移动端——都可以站在这个理论框架上,为自己的芯片找到最优的大模型架构。

  真正的领先,从来不是简单的硬件堆砌,而是源于底层基础科学的突破。当理想率先用严谨的数学规律重构端侧 AI 的边界时,这种在底层理论上的深耕与引领,正是理想智能驾驶系统能够跨越算力瓶颈、持续领跑行业的最大底气。

  在智能驾驶的下半场,能够定义底层规则的企业,才能真正主导全场景智能的未来体验。