超越 OpenAI,小米大模型团队登顶音频推理 MMAU 榜

  3 月 17 日,小米技术官方账号宣布,小米大模型团队通过迁移 DeepSeek 算法,让 7B 模型登顶音频推理 MMAU 榜。小米也公布了其训练的目的之一:通过一段汽车行驶中的座舱录音,利用 AI 判断出汽车是否存在潜在的故障。

  据小米大模型团队介绍,其尝试将 DeepSeek-R1 的 GRPO 算法(强化学习算法)迁移到通义千问的 Qwen2-Audio-7B 模型上。结果显示,在仅使用由清华大学发布的 AVQA 的 3.8 万条训练样本情况下,强化学习微调后的模型在 MMAU 评测集上实现了 64.5% 的准确率,这一成绩比目前榜单上第一名的商业闭源模型 GPT-4o 有近 10 个百分点的优势。

  小米方面还提到了一点有趣的实验结果:当团队在训练中强制要求模型输出 < thinking >< /thinking > 推理过程时(类似传统思维链方法),准确率反而下降至 61.1%。团队表示,这说明显式的思维链结果输出可能并不利于模型的训练。

  本次使用的 MMAU 评测集是这种音频推理能力的量化标尺,它通过一万条涵盖语音、环境声和音乐的音频样本,结合人类专家标注的问答对,测试模型在 27 种技能的表现。作为基准上限,人类专家在 MMAU 上的准确率为 82.23%,而本次小米所选用的 Qwen2-Audio-7B 模型在此评测集上的准确率为 49.2%。

  小米大模型团队表示,此次实验验证了强化学习在音频推理领域的独特价值,也为后续研究打开了一扇新的大门,同时小米预测,当机器不仅能「听见」声音,还能「听懂」声音背后的因果逻辑时,真正的智能听觉时代将会来临。

  目前该项目的训练代码、模型参数、技术报告均已公开,同时还公布了交互 Demo:http://120.48.108.147:7860/。(比较有趣的是,Demo 点开来是小米创始人雷军的「名场面」— Are U OK)