阶跃星辰发布国内首个千亿参数端到端语音模型

  4 月 22 日,阶跃星辰宣布推出国内首个千亿参数端到端语音大模型 Step-1o-Audio,开发者可通过阶跃星辰开放平台 Realtime API 使用该实时语音模型。

  据官方介绍,阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口。它提供超低延迟、高情商、多方言、拟人化的语音对话体验,支持人机之间的自然流畅沟通,并具备实时打断能力,实现真正意义上的双向交互式对话。

  技术上,Realtime API 拥有以下亮点:

  • 端到端实时流式处理:音频与文字流分段返回,支持实时打断和状态追踪;
  • Server-Side VAD 技术:自动检测语音起止,无需客户端处理静音分割;
  • 多模态异步响应:语音生成与文字转录并行处理,支持独立事件通知;
  • 灵活的状态同步机制:通过事件链精确追踪消息生命周期。

  模型性能表现上:

  • 在 LlaMA Question、Web Questions 等五大主流公开测试集中,Step-1o-Audio 模型性能均超过了行业内同类型开源模型,位列第一;
  • Step-1o-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。

  另外,针对 Realtime API,阶跃星辰还提供了详细的开发指南并开源了实时语音控制台。通过该控制台,用户可以快速体验实时语音交互及相关功能的调试与测试。