4 月 22 日,阶跃星辰宣布推出国内首个千亿参数端到端语音大模型 Step-1o-Audio,开发者可通过阶跃星辰开放平台 Realtime API 使用该实时语音模型。
据官方介绍,阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口。它提供超低延迟、高情商、多方言、拟人化的语音对话体验,支持人机之间的自然流畅沟通,并具备实时打断能力,实现真正意义上的双向交互式对话。
技术上,Realtime API 拥有以下亮点:
- 端到端实时流式处理:音频与文字流分段返回,支持实时打断和状态追踪;
- Server-Side VAD 技术:自动检测语音起止,无需客户端处理静音分割;
- 多模态异步响应:语音生成与文字转录并行处理,支持独立事件通知;
- 灵活的状态同步机制:通过事件链精确追踪消息生命周期。
模型性能表现上:
- 在 LlaMA Question、Web Questions 等五大主流公开测试集中,Step-1o-Audio 模型性能均超过了行业内同类型开源模型,位列第一;
- Step-1o-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。
另外,针对 Realtime API,阶跃星辰还提供了详细的开发指南并开源了实时语音控制台。通过该控制台,用户可以快速体验实时语音交互及相关功能的调试与测试。