Stability AI 推出专业音频生成模型 Stable Audio 2.5,借助 Adversarial Relativistic-Contrastive(ARC)后训练技术,实现复杂音乐结构的高效生成。
在英伟达 H100 GPU 上,模型可在 2 秒内完成最长 3 分钟的音频创作,支持前奏、发展、尾声等多段落结构,并集成音频修复功能,允许用户上传现有音频进行续写。
该模型同步推出移动端轻量版 Stable Audio Open Small,可在手机端 7 秒内生成 11 秒立体声。为确保商用合规,Stable Audio 2.5 基于 licensed 数据集训练,并通过版权识别系统限制用户上传版权受限内容。
Stability AI 希望该技术能应用于广告、零售、品牌音效等多个领域,与 WPP 旗下的音效品牌代理机构 Amp 合作,为大型客户提供一致的音频识别服务。
Stability AI 的音频团队还可以根据公司的音效库调整模型,打造独特的音频标识。Stable Audio2.5 将通过 WPP Open 平台面向 WPP 的全球客户开放。