独家对话GMI Cloud:从“训练”卷到“推理”,AI企业如何突破算力瓶颈并弯道超车?

图片来源:元宝

图片来源:元宝

  近年来,全球 AI 产业经历了一场从“模型军备竞赛”到“应用落地厮杀”的范式转移。当 ChatGPT 掀起的大模型浪潮褪去,行业逐渐意识到:训练出千亿参数的模型只是起点,如何让 AI 在真实交互场景中高效推理、创造价值,才是未来发展的关键。

  2025 年春节期间,DeepSeek R1 在 AI 圈引发巨浪,它向我们揭示了一个残酷而充满希望的真相——AI 技术的全球化不再依赖于“更大的模型”,而是取决于能否将推理能力转化为可移植、可代谢、可进化的“商业基因”;同时 DeepSeek 多次“暂时无法响应需求”的背后,也告诉我们想要持续拥有这个“商业基因”,还需要有充足且稳定的算力支持。

  与此同时,中国 AI 企业正掀起出海热潮。当国内市场的算力消耗战陷入零和博弈,出海的边际收益已远超内卷的苟且红利。但在算力成本高企、地缘政治博弈加剧的背景下,这场“推理革命”与“出海远征”的双重战役,正将 AI 企业推向新的战略拐点。

  近日,GMI Cloud 亚太区总裁、前阿里云资深总监 King Cui 接受了钛媒体创投家的独家访谈,围绕 AI 算力的“下半场”及推理需求的爆发趋势进行了深入探讨。

  据悉,当全球市场对年初上线的 DeepSeek-R1 需求激增时,GMI Cloud 技术团队第一时间完成了基于英伟达 H200 GPU 部署的 DeepSeek R1 满血版,构建了专属 DeepSeek R1 的推理端点。要知道,H200 在官方测试中展现出卓越性能,每秒最多可处理 3872 个 Token,这意味着 GMI Cloud 部署的 DeepSeek R1 在大模型推理性能上实现了大幅提升。所以一经上线,GMI Cloud 北美团队的电话被打爆。

  GMI Cloud 由 Google X 的 AI 专家与硅谷精英共同创立,是一家领先的 AI Native Cloud 服务商,拥有覆盖全球的数据中心网络。作为近期晋升为全球 TOP10 的 NCP(NVIDIA 认证云计算合作伙伴)之一,GMI Cloud 具备在公开市场之前获取充足 H200 芯片的优势,这也成为其率先完成 R1 部署的重要因素。

  2024 年 10 月,GMI Cloud 成功完成A轮融资,筹集 8200 万美元,这笔资金主要用于科罗拉多州数据中心的 H200 建设。在 DeepSeek R1 爆火之后,GMI Cloud 该数据中心的 H200 算力资源需求订单爆满。据钛媒体创投家独家消息,GMI Cloud 即将完成新一轮大规模融资,将进一步扩展算力布局。

  此外,在近日正在举办的 2025 英伟达 GTC 大会上,GMI Cloud 将正式发布面向推理云服务的产品——Inference Engine,以满足不同行业客户不断增长的推理计算需求。

  以下为钛媒体创投家与 King 对话全文,略有删减:

  钛媒体创投家:咱们可以先聊聊部署基于 H200 的 DeepSeek R1 满血版这件事的难点和意义?

  King:我们在北美有充足的 H200 储备,所以技术团队才能够基于 H200 构建 Deep Seek R1 的满血版。相较于国内市场常见的低算力显卡,H200 展现出显著的性能优势,单个英伟达 HGXH200 系统上,每秒最多可处理 3872 个 Token。然而,真正的挑战在于如何最大化发挥 H200 的算力优势,从而大幅提升大模型的推理能力。

  整个春节期间,GMI Cloud 北美团队都没有怎么休息,对软硬件系统进行了深度优化。与开源技术版本相比,优化后的 R1 在推理性能上实现了数倍提升,模型推理能力大幅增强。这种性能差距也成了我们区别于其他厂商的核心竞争力。

  这次部署成功的意义在于,让我们能够快速在北美、亚太、欧洲等多个数据中心,以 H200 为基础部署 R1 推理服务。这一布局确保了全球各区域的 AI 出海企业能够在本地就近接入高性能、稳定的 R1 推理服务,以满足日益增长的推理计算需求。

  钛媒体创投家:您怎么看“AI 的下半场是推理”这种说法?

  King:我非常认同“AI 的下半场是推理”这一观点。根据我的判断,2025 年 AI 生态的应用端将迎来大规模爆发,“下半场”的重点将从过去的训练(Training)逐步转向推理(Inference)。

  推理需求爆发的核心条件有三点:

  第一,基础模型的能力正在高速迭代。从过去两年的技术发展程度来讲基本上每3—6 个月模型的能力就会提升一个台阶。从 SuperCLUE(中文通用大模型综合性能评测基准网)来看,过去这两年,整体模型能力的上限已从两年前的 40 分提升至 80 分以上,相当于从“小学生水平”跃升至“博士生水平”,这也为 AI 进入推理时代奠定了基础。

  第二,开源生态的繁荣催生了大量开发者。国内如 DeepSeek、通义千问等头部大模型的开源生态正处于高速发展阶段,已聚集了大量开发者,而开发者数量的激增正是应用侧爆发的关键。

  第三,单位推理成本的降低推动了 AI 应用普及。以 DeepSeek 为例,其极大降低了推理成本,使 AI 推理能力真正具备大规模商用的可行性。

  2024 年全球 AI 原生应用的月活已经达到 1.2 个亿,相比 2023 年底增长了 230%;AI 应用的内购收入达到 33 亿美金,同比增长了 50%。可以看到,从应用数量、用户规模,到内购收入,各个维度都在保持高速增长。而支撑这一增长的核心,正是模型厂商所提供的大量推理计算资源。

  我个人判断,从 2025 年开始,整个 GPU 算力市场的“推理需求”会大于“训练需求”。

  2024 年初,AI 市场的算力保有量和需求量中,训练(Training)与推理(Inference)的比例约为9:1,大量的 AI 模型公司都在买 GPU 或租 GPU 进行训练,导致训练需求极为庞大。

  我当时做过一个预测“到 2026 年底,训练和推理的算力保有量和需求量会发生一个逆转,变为1:9,即全行业对推理算力的需求和保有量将是训练的 9 倍以上。”从目前的发展趋势来看,这一变化正在迅速实现,推理需求已成为 AI 算力市场的主导力量。

  钛媒体创投家:DeepSeek 之后,AI 企业对于算力的诉求发生了怎样的变化?

  King: 有人说 DeepSeek 的爆火对于算力市场是利空,我却不这么认为。相反,从短中长期来看,这对于整个算力市场,尤其是 GPU 算力服务行业而言,都是一个重大利好

  回到您这个问题,可以三个方面来看,首先是对基础模型研发的厂商来说,DS 的能力表现以及开源,对他们的刺激是很大的,但是好消息是 DS 的深度开源,给了行业一条明确的实践路径,也就是通过强化学习的方式能够有效的提升模型能力,因此各个模型厂商都会沿着这条路径来继续提升模型能力,所以他们对 Pre-Training 的算力需求还是会持续增长,只不过 Pre-Training 的整体算力市场增速会下降很多。

  第二个方面,随着开源的基础模型能力达到“博士生”水平后,很多垂直行业大模型开始涌现,尤其是在 DeepSeek 今年又带动了模型厂商走向更全面更深度的开源,这样很多企业会基于优秀的开源基座模型去做自己垂直行业的业务模型,这种单个垂直模型的 Post-Training 集群算力需求不会像 Pre-Training 那么大,但是千行百业,垂直模型的数量会很多,因此 Post-Training 的整体算力市场增速会大于 Pre-Training;

  第三个方面,随着模型的能力越来越强,推理的成本越来越低,AI 应用企业的 ROI 有望打正,这将激发更多的 AI 应用企业的涌现,这也意味着那些提供模型即服务(MaaS) 的厂商会有更多的 Inference 算力的需求。而这部分 Inference 算力市场的增速会远大于前两个市场。

  钛媒体创投家:AI 的下半场对算力的追求,是否从单纯的算力堆叠转变为高效灵活的配置需求?即软件大于硬件?

  King:大颗粒度对比来看,我认同您的这个说法。

  相比训练来说,推理是要直接面向终端用户服务的,对服务的要求会更高,需要 GPU 云平台能够提供及时响应、弹性扩展、高稳定性的推理服务,这都需要从软件层结合硬件特性去做深度的优化,包括跨集群甚至跨地区的推理算力的灵活调度、根据硬件特性和模型结构在推理框架层面进行推理性能的深度优化、以及对推理服务的全面的主动监控,和自动容错来保障服务稳定性等,这些都需要既懂 AI 算法又懂工程优化的技术团队来进行持续优化。

  具体来说,现在多数 AI 应用都是服务全球的用户,那么当 AI 应用一夜全球爆火,就需要推理服务能够根据用户地区分布来进行全球自动扩容,以保障涌进来的用户都能有较好的体验,这对用户体验和用户留存来说是非常关键的。

  钛媒体创投家:我们知道 GMI Cloud 主要服务 AI 出海企业,对于算力服务的需求变化给 AI 出海生态带来了怎样的连锁反应呢?

  King:是的,GMI Cloud 主要服务全球的 AI 企业,涵盖您说的中国 AI 企业出海。我们认为,国内的移动互联网生态体系已经非常固定了。如果还在国内做移动互联网,流量天花板已经非常明显。在个人开发者和创业公司主导的时代,中国的应用技术在全球范围内依然保持领先。

  相比之下,海外市场仍然是一片广阔的蓝海,AI 企业多年在国内市场厮杀积累的工程化能力、场景打磨经验、极致成本控制,恰是新兴市场最稀缺的“数字基建基因”。中国 AI 企业不是带着解决方案而出海,而是带着将技术分解重组的能力在海外重新定义 AI 应用。

  DeepSeek 的火热极大地加速了 AI 出海生态的繁荣。我们发现,许多海外创业企业从 Llama-3 迁移到 DeepSeek,同时,越来越多基于 DeepSeek 搭建自有模型的 AI Agent 企业也在迅速崛起。

  所以我坚定地相信,DeepSeek 的爆火必会加速中国企业,尤其是 AI 出海创业走向更大的繁荣。

  钛媒体创投家:GMI Cloud 在策略和产品上是如何应对当下 AI 企业对于算力需求的变化呢?

  King:GMI Cloud 有一款产品叫 Cluster Engine,最初是为满足企业客户在模型训练方面的需求而推出的。到了 2024 年 10 月,我们内部的高管团队做一次对未来行业趋势的推演,得出一个判断,未来市场将全面转向推理。因此,在那次会议上,我们决定立项做一个面向推理云服务平台的全新产品 Inference Engine。

  到目前为止,我们全球所有技术团队已经花费了五个月的时间来研发和打磨这一产品。未来,我们会在维持和强化 Cluster Engine 的基础之上,重点发力推广面向推理云服务平台的 Inference Engine。

  我们在英伟达 GTC 2025 大会上发布 Inference Engine 的正式版本,并以我们深度优化过的 Deep Seek R1 推理服务为案例,展示 GMI Cloud 在软硬件深度优化方面对推理模型性能的显著提升。

  钛媒体创投家:作为 NCP 全球排名 TOP10,除了在产品上能够优先拿货之外,还有什么优势吗?

  King:GMI Cloud 作为英伟达认证的云计算合作伙伴 NCP,并且是 NVIDIA Preferred 级别的 Partner,在亚太地区拥有高端 GPU 绝对优先的分配权,我们在 2024 年 10 月宣布的 8200 美金融资中,引入了一家 GPU OEM 厂商作为我们的股东,这也使得我们在 GPU 供应链方面相比其他厂商具有明显的优势。

  除了硬件资源的优势外,我们还与英伟达的技术工程师团队保持深度紧密的交流。GMI Cloud 的总部也在美国硅谷,距离英伟达总部非常近,双方的工程师团队基本每两周就会进行一次技术交流,探讨最新的 GPU 集群优化技术。进而提升了我们在 AI 算法软件方面的优势。

  最近,我们拿到了最新的 B200 GPU,也在忙着与客户做 POC。B200 在训练和推理方面的表现和性价比,都远超 H200。

  钛媒体创投家:GMI Cloud 是否有进一步的融资计划?

  King:是的,我们目前正在洽谈新一轮融资,同时也可能会有新的 OEM 厂商加入我们的股东序列,如果达成最终共识,这将进一步增强我们在 GPU 供应链方面的优势。

  新一轮的融资将用于亚太数据中心高端 GPU 云服务的构建,我们希望能够更好地为全球范围内的 AI 初创企业,特别是亚太地区的 AI 企业,提供更加可靠的、敏捷的 AI Native Cloud,全方位助力 AI 应用的训练与推理实践。