
日前,阿里通义千问发布了新的小尺寸多模态模型「Qwen2.5-Omni-3B」,具体来看:
- Qwen2.5-Omni-3B 为响应开发者轻量级 GPU 适配需求的新模型;
- 与 Qwen2.5-Omni-7B 相比 ,3B 版本在长上下文序列处理(约 25k tokens)中显存消耗减少超 50%,并可在普通 24GB 的消费级 GPU 上支持长达 30 秒的音视频交互 ;
- 3B 版本模型保留 7B 模型 90% 以上的多模态理解能力 ,语音输出自然度与稳定性与 7B 版本性能一致。
目前,Qwen2.5-Omni-3B 已在魔搭社区和 HuggingFace 上开源。