英伟达新GPU,超长上下文/视频生成专用

  henry 发自凹非寺

  量子位 | 公众号 QbitAI

  老黄对 token 密集型任务下手了。

  刚刚,在 AI Infra Summit 上,英伟达宣布推出专为处理百万 token 级别的代码生成和生成式视频应用的全新 GPU——

  NVIDIA Rubin CPX GPU

  老黄表示:Rubin CPX 是首款为超大上下文 AI 量身定制的 CUDA GPU,可以让模型“一口气”推理数百万 token。

  而且,RubinCPX 还能让你越用越省钱:每投资 1 亿美元,就能获得 50 亿美元的 token 收益。(50 倍,你就赚吧,老黄说的)

  对于“老黄画的饼”,CursorRunwayMagic 等行业大佬也表示 RubinCPX 将分别在代码生产力生成式影像创作、以及大模型自主代理上带来突破。

  那么好了好了,这 GPU 到底什么来头?

  首款专为超大上下文 AI 打造的 CUDA GPU

  Rubin CPX 基于 NVIDIA Rubin 架构,采用单片设计,内置 NVFP4 计算资源,主打 AI 推理的高性能和高能效。

  它的性能提升,主要体现在以下几个方面:

  • 在 NVFP4 精度下可提供高达30PFLOPS算力,做到性能与精度兼顾。
  • 配备128GB高性价比 GDDR7 内存,应对最苛刻的上下文工作负载。

  – 与 NVIDIA GB300 NVL72 系统相比,注意力机制处理速度提升3倍,让模型在处理更长上下文序列时也不掉速。

  在这里,我们可以简单地拿 A100 来对比一下。

  在算力方面,相较于 A100 的 FP16 精度,Rubin CPX 专门优化过的 NVFP4 可以实现几个量级的性能提升。

  而在内存方面,NVIDIA A100 是40GB80GB,Rubin CPX 则直接干到了128GB,让超大上下文处理毫无压力。

  (注:在处理超大上下文任务时,GPU 内存容量至关重要:模型需要一次性加载数百万 token 的权重、激活值和中间计算结果,如果内存不够,就只能分批处理,既影响速度,也限制模型规模)

  单片就已经这么强,组合还可以让它更厉害!

  英伟达表示,Rubin CPX 还可以与 NVIDIA Vera CPU 和 Rubin GPU 协同工作,构成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。

  该平台在单机架内提供 8EFLOPS 的 AI 算力 +100TB 高速内存+每秒 1.7PB 的内存带宽,较 NVIDIA GB300 NVL72 系统的 AI 性能提升了 7.5 倍。

  *(注:1EFLOPS = 1000PFLOPS )

  还没完,在此基础上,NVIDIA Vera Rubin NVL144 CPX 还可以接入 Quantum‑X800 InfiniBand 或 Spectrum‑X以太网平台,实现大规模多机互联计算,让性能再上一个台阶。

  预计明年正式推出

  就像前面提到的,NVIDIA Rubin CPX 在长上下文处理上实现了最高性能和最高 token 收益——远超现有系统的设计极限。

  老黄表示,这将像 RTX 革新了图形和物理 AI 一样,改变 AI 时代的上下文推理能力。

  在实际应用中,它能把 AI 编程助手从简单的代码生成工具,升级为能够理解并优化大规模软件项目的复杂系统。

  在视频处理方面,由于 AI 模型分析一小时内容就可能涉及上百万 token,突破了传统 GPU 的算力极限。

  为此,Rubin CPX 将视频解码、编码和长上下文推理处理集成在单芯片中,为视频搜索和高质量生成式视频等长时格式应用提供前所未有的能力。

  此外,Rubin CPX 将得到 NVIDIA 完整 AI 软件栈支持,从加速基础设施到企业级软件一应俱全。

  最后,NVIDIA Rubin CPX 预计将于 2026 年底正式推出。

  Token 密集型任务就要不密集了(一年后版)

  [1]https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference

  [2]https://www.runpod.io/articles/guides/nvidia-a100-gpu?utm_source=chatgpt.com