3 月 3 日消息,近日,联想集团宣布基于联想问天 WA7780 G3 服务器,在行业内首次实现单机部署 DeepSeek-R1/V3 671B 大模型,以低于行业公认 1TGB 显存(实际 768GB)承载 100 并发用户流畅体验,可以满足千人以上企业的使用需求,为行业树立了企业级大模型部署新基准。
联想此次突破为企业提供科学选型指南。针对行业公认 1TB 显存是千亿参数大模型运行基线的背景下,联想研发团队通过专家并行优化、智能访存架构升级及 PCIe 5.0 全互联架构创新,大幅提升了显存利用率,从而实现了性能的提升。
联想实测数据显示,在 512 token 标准测试环境下,该系统可支持 100 个并发用户持续获得每秒 10 token 的稳定输出,首 token 响应时间压缩至 30 秒内。即便面对 4K 长序列复杂场景,仍能保持 25 个并发用户同等性能表现。
尤为值得关注的是,这台服务器仅配置了 8 张 96GB 显存的 GPU 卡。而 DeepSeek-R1 大模型的模型参数就需占用约 700GB 显存,仅余不到 100GB 显存空间可需用于 KV-Cache 等计算,如果不做专门优化,仅能支持2、3 个用户接入。
联想在万全异构智算平台的加持下通过精心优化实现了突破,成功达成了用户最为关注的三项关键指标:首 token 延迟小于 30 秒、单 token 延迟小于 100 毫秒、支持 2K 以上长序列问题处理,同时实现了 20% 以上的成本节约。
未来,联想基础设施业务群与联想研究院先进计算实验室将继续携手合作,依托联想万全异构智算平台对 DeepSeek 平台从 AI 预训练、后训练到推理的全流程进行持续优化,为客户奉献出性能更佳、性价比更高的产品和解决方案,以加速 DeepSeek 大模型的落地。(静静)