
新智元报道
编辑:艾伦
甲骨文于上周发布全球最大云端 AI 超级计算机「OCI Zettascale10」,由 80 万块 NVIDIA GPU 组成,峰值算力高达 16 ZettaFLOPS,成为 OpenAI「星际之门」集群的算力核心。其独创 Acceleron RoCE 网络实现 GPU 间高效互联,显著提升性能与能效。该系统象征甲骨文在 AI 基础设施竞争中的强势布局。
甲骨文在 2025 年 AI World 大会上发布 OCI Zettascale10 超级集群。
在拉斯维加斯举办的 AI World 2025 大会上,甲骨文高调推出了一台号称全球最大规模的云端 AI 超级计算机——OCI Zettascale10。

这个庞然大物横跨多个数据中心,由多达 80 万块 NVIDIA GPU 芯片构成,峰值计算性能被宣称可达惊人的 16 ZettaFLOPS(即每秒 1021 次以上浮点运算)。
如此天文数字意味着平均每块 GPU 可贡献约 20 PetaFLOPS 算力,接近英伟达最新一代 Grace Hopper(Blackwell 架构 GB300)芯片的水平。
甲骨文此举无疑是在急速升温的 AI 算力军备竞赛中放出「大招」,试图在云端 AI 基础设施版图上占据一席之地。
OpenAI 巨型集群的动力之源
这套 Zettascale10 系统已经成为 OpenAI 庞大算力需求的幕后功臣。
据悉,甲骨文与 OpenAI 在德州阿比林(Abilene)共建了「星际之门」旗舰 AI 超级计算集群,而 OCI Zettascale10 正是其算力骨干。

OpenAI 基础设施部门副总裁 Peter Hoeschele 表示,甲骨文定制的 RoCE 高速网络架构在「千兆瓦级」规模下最大化了整体性能,同时将大部分能耗都用在了计算上。
换言之,甲骨文研发的这套 RDMA over Converged Ethernet 网络(代号 Acceleron)将海量 GPU 紧密连接成一个整体,使得 OpenAI 的大模型训练能够在如此庞大的芯片阵列上高效运转。
正因有了与 OpenAI 的深度合作背书,Zettascale10 一亮相便自带「实战」光环,它已经在为当今业界最严苛的一些 AI 工作负载提供动力。
Acceleron 网络架构揭秘
如此规模的 GPU「巨阵」要高效运转,奥秘就在于甲骨文独创的 Acceleron RoCE 网络架构。
简单来说,Acceleron 让每块 GPU 的网络接口卡(NIC)都充当一个小型交换机,一次可连接到多个隔离的网络交换平面。
这种多平面、扁平化的网络设计大幅降低了 GPU 之间的通信延迟,并确保即使某一路由出现故障时,训练作业也能自动切换到其它路径继续运行,不至于被迫中断。
相比传统三级交换结构,Acceleron 减少了网络层级,使 GPU 对 GPU 的直连延迟更加一致,整体性能更具可预测性。
此外,该架构引入了线性可插拔光学模块(LPO)和线性接收光学组件(LRO)等新技术,在不降低 400G/800G 带宽的前提下削减了网络的能耗与冷却成本。
甲骨文称这种创新网络既提高了效率又降低了成本,让客户可以用更少的电力完成同样的 AI 训练任务;
NVIDIA 公司高管 Ian Buck 也认可道,正是这种全栈优化的「计算结构」(compute fabric)提供了将 AI 从实验推进到工业化所需的基础。
峰值神话与现实考验
甲骨文计划在 2026 年下半年正式向客户提供 Zettascale10 集群服务,目前这一系统已开始接受预订。
然而,对于 16 ZFLOPS 的惊人算力,不少业内观察者持保留态度。
该数据尚未经独立机构验证,而且很可能是基于理论峰值算力而非持续实效得出。
据业内报道,甲骨文宣称的 16 ZFLOPS 有可能利用了极低精度的 AI 计算指标(例如 FP8 甚至 4 比特稀疏运算)来实现。
实际的大模型训练通常需要使用更高精度(如 BF16 或 FP8)的数值格式以保证模型收敛效果,因此 16 ZFLOPS 这个数字更多体现了甲骨文硬件在理想情况下的上限潜力,而非日常工作负载下可持续交付的性能。
这台「云端巨无霸」真正的实战表现还有待时间检验,只有等到系统明年投入使用,各种基准测试与用户实际反馈才能揭晓它能否如宣称般高效且可靠。
云端 AI 竞赛的挑战与展望
甲骨文并非孤军奋战。
当前,微软、谷歌、亚马逊等云计算巨头也在争相构建各自的大规模 AI 集群,它们或采购海量 GPU,或研发自家 AI 加速硬件,云端 AI 算力版图正迅速扩张。
甲骨文此次押下重注推出 Zettascale10,一方面巩固了与 OpenAI 的战略联盟,另一方面也是向业界宣示其在 AI 时代不容忽视的新实力。
然而在市场前景上,甲骨文依然面临如何吸引客户的问题。
为此,该公司还发布了新的「多云通用积分」计划,允许运营商用统一的预付积分在甲骨文云及 AWS、Azure、Google 等多家云服务间自由调配甲骨文数据库和 OCI 服务。

这项举措旨在降低客户迁移门槛、提高平台黏性,为甲骨文云生态争取更大的用户基础。
OCI Zettascale10 的出现展示了云服务商为满足 AI 空前算力需求所做的大胆探索。
等到明年这套系统真正落地,我们才能知道甲骨文能否凭借这一云端「巨无霸」在激烈的 AI 基础设施竞赛中抢得先机,并兑现其关于高效、规模和可靠性的承诺。
参考资料:
