阶跃星辰发布国内首个千亿参数端到端语音模型

　　4 月 22 日，阶跃星辰宣布推出国内首个千亿参数端到端语音大模型 Step-1o-Audio，开发者可通过阶跃星辰开放平台 Realtime API 使用该实时语音模型。

　　据官方介绍，阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口。它提供超低延迟、高情商、多方言、拟人化的语音对话体验，支持人机之间的自然流畅沟通，并具备实时打断能力，实现真正意义上的双向交互式对话。

　　技术上，Realtime API 拥有以下亮点：

端到端实时流式处理：音频与文字流分段返回，支持实时打断和状态追踪；
Server-Side VAD 技术：自动检测语音起止，无需客户端处理静音分割；
多模态异步响应：语音生成与文字转录并行处理，支持独立事件通知；
灵活的状态同步机制：通过事件链精确追踪消息生命周期。

　　模型性能表现上：

在 LlaMA Question、Web Questions 等五大主流公开测试集中，Step-1o-Audio 模型性能均超过了行业内同类型开源模型，位列第一；
Step-1o-Audio 在 HSK-6（汉语水平考试六级）评测中的表现尤为突出，是最懂中国话的开源语音交互大模型。

　　另外，针对 Realtime API，阶跃星辰还提供了详细的开发指南并开源了实时语音控制台。通过该控制台，用户可以快速体验实时语音交互及相关功能的调试与测试。

作者：itwriter
来源：互联网
日期：2025-04-23
浏览 (1432)