
随着 AI 时代的到来,芯片作为其发展的基石,推动 AI 发展的同时,也在 AI 的带动下迎来快速增长。Arm 与 AI 正形成一种相互促进的加速关系。
在本月举行的 Computex2025 上,Arm 预计在 2025 年,出货到头部超大规模云服务提供商的算力中,有近 50% 是基于 Arm 架构。
另外,Arm 也预估在 PC 与平板市场,2025 年 Arm 架构将占整体出货量的 40%。
通常,一个新架构要获得市场认可往往需要较长时间,Arm 取得这样的成绩花费的时间明显更短,Arm 是如何在更短时间内取得如此成绩?
构建 AI 系统的三个关键要素
“AI 正以前所未有的速度改变一切。”Arm 高级副总裁兼终端事业部总经理 Chris Bergey 说,“在接下来的一到三年内,我们很快就会迎来这样的转变:当这些设备处于自主模式运行时,其表现将能够媲美人类操作。”
Arm 高级副总裁兼终端事业部总经理 Chris Bergey
这就需要构建一个完善的 AI 系统,Chris Bergey 表示构建 AI 系统有三个关键要素:
首先,从云端到边缘打造一个无处不在的平台将具有极大的价值。很多时候 AI 在端侧运行,但某些情况下,又希望能够将工作负载转移到云端。拥有一个高可移植的平台,对于推动先进技术及产品的实现,以及为现有产品增加新功能,非常有价值。
其次,是电力和每瓦性能。数据中心的能耗从兆瓦级 (MW) 跃升至吉瓦 (GW) 级,其中超过 50% 实际上来自于机架和半导体设备。由于 AI 需要海量的计算能力,这意味着“每瓦性能”可能是最关键的衡量指标。
还有,软件同样至关重要。AI 发展的速度非常快,这让 AI 软件开发非常具有挑战性。如果没有成熟的软件及其生态系统,要跟上所有行业标准和各种 AI 框架,将会是一项非常繁重且具有挑战性的工作。
Arm 已经在软件方面进行了大量投资,去年 COMPUTEX,Arm 发布了 Arm Kleidi 软件库,目标是让开发者能在各种 AI 模型与工作负载上,包括音频、图像、文字或视频,都能实时获得最佳的性能表现。
Kleidi 推出后的一年内,已整合至多个主流 AI 框架中,包括 ExecuTorch、PyTorch、Angel、llama.cpp、MediaPipe、MNN 以及 ONNX Runtime。
截至目前,Kleidi 已在搭载 Arm 架构的设备上安装量累计超过 80 亿次,且仍在持续增长中。
Arm CPU 更适配 AI 训练和推理
Arm 之所以能乘上 AI 的东风,关键原因就是 Arm 架构的产品能够充分满足构建 AI 系统的三大要素。
在数据中心领域,Arm 已经深耕了十多年。全球最大的云服务提供商亚马逊云科技 (AWS)就对 Arm 服务器 CPU 的发展至关重要。
AWS 去年秋季分享,他们有相当一部分自身的工作负载运行在基于 Arm 架构的 AWS Graviton 处理器上。
在 AWS 完成自身工作负载迁移至 Arm 平台后,第三方工作负载也纷纷转向 Arm 平台,这为头部云服务提供商带来了超过 40% 的能效提升。AWS 也曾分享,其超过 90% 的重要客户(不包括 Amazon)也在使用 Arm 的架构。
这意味着,过去两年 AWS 新部署的 CPU 算力中,有超过 50% 是基于 Arm 技术的 Graviton。
除了 AWS,英伟达也积极采用 Arm 架构,比如,NVIDIA Grace Blackwell 和 Vera Rubin 以及许多云服务提供商的自研加速器。
“这些加速器无论是用于训练还是推理,通常都会与 Arm 处理器配合使用,因为在芯粒(Chiplet)层级,它们之间可以实现紧密耦合,从而带来卓越的计算密度、I/O 密度和带宽表现。”Chris Bergey 指出,这俨然成为一种趋势——NVIDIA 及云服务提供商都在基于 Arm 架构运行 AI。
“基于这样的发展势头,我们预计 Arm 架构将占据半数 2025 年出货到头部云服务提供商的算力,这将是一个巨大的成就。”Chris Bergey 同时表示,云计算推动了这一增长,如今 AI 计算也成为强劲驱动力。数据中心的未来将是 Arm 计算与加速器的紧密耦合。
Chris Bergey 也明确指出,Arm 目前重点关注边缘侧 GPU,尚未有投入数据中心中 GPU 的计划。
Arm 架构 PC 和平板市场增速惊人
在云端训练和推理使用 Arm 的产品的同时,英伟达也将数据中心级别的计算能力带到了桌面级产品。
今年推出的 NVIDIA DGX Spark,搭载了 10 个 Arm Cortex-X925 核心和 10 个 Cortex-A725 核心,并配备了可实现高达 1PetaFLOPs(即每秒 10^15 次浮点运算)AI 性能的 GPU。
“Cortex-X925 具备业内最高水平的 IPC 性能。这一点至关重要,因为 IPC(每时钟周期指令数)与频率的乘积决定了整个平台的性能。相较于单纯依赖提高频率来提升性能,提升 IPC 可以更高效地实现性能的增强,同时显著改善能耗表现。”Chris Bergey 指出。
雷峰网了解到,今年晚些时候 Arm 会推出新的 Armv9 旗舰 CPU(代号 Travis)。届时,在当前业内 IPC 性能最强的 Arm 处理器基础上,再次实现两位数的 IPC 性能提升。
CPU 的性能对于端侧 AI 的普及非常重要,开发者在进行 AI 开发时,会根据具体需求来决定是在 CPU、GPU 还是 NPU 上运行。大多数第三方应用是在 CPU 上进行 AI 开发,有 70% 会始终运行在 CPU 上,当然 AI 在不断演进,异构计算是未来发展的方向。
Arm 长久的合作伙伴联发科技,也在近期推出的 Kompanio Ultra SoC,更进一步提升了 Chromebook 市场的水平,让新一代 Chromebook Plus 设备具备先进 AI 与多媒体能力。
“我们对在 PC 和平板领域,这些过去由 x86 主导的市场所取得的进展也感到满意。Arm 架构在 PC 与平板市场的需求大幅成长,预估在 2025 年将占整体出货量的 40% 以上。”Chris Bergey 指出,
Arm 的真正优势在于在全球范围内有超过2,200 万名的软件开发者。几乎所有重要的软件开发不仅能在 Arm 架构上运行,而且都针对 Arm 架构进行了优化。再加上 Arm 架构本身的设计及商业模式,开发者仅需一次开发,就能在整个半导体生态系统中众多采用 Arm CPU 的 SoC 上运行。
长久以来,Arm 在手机、物联网、汽车市场都具备绝对的领先优势。服务器、PC 和平板并不是 Arm 的优势所在,然而随着 AI 时代的到来,Arm 成为了推动 AI 普及的重要计算架构,同时,AI 也正成为推动 Arm 业绩增长的重要力量。