3 月 18 日,昆仑万维正式开源首款工业界多模态思维链推理模型 Skywork R1V,同时昆仑万维也成为中国第一个开源「多模态推理模型」的企业。
据官方介绍,昆仑万维 R1V 具备超强的视觉理解和推理能力:
- 在 Reasoning 推理能力方面,R1V 实现了模型的顶尖逻辑推理与数学分析能力。在权威的 MATH500 和 AIME 基准测试中,R1V 分别取得了 94.0 和 72.0 的高分,超越 Qwen2.5-72B、GPT-4o、Claude 3.5。R1V 在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准;
- 在 Vision 视觉理解能力方面,R1V 成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,R1V 能够高效解决需要多步视觉推理的问题,在 MMMU 与 MathVista 等视觉推理基准中分别取得了 69 和 67.5 的优异成绩,媲美甚至超越更大开源模型以及主流闭源模型。
据悉,昆仑万维通过「文本推理能力的多模态高效迁移」「多模态混合式训练(Iterative SFT + GRPO)」「自适应长度思维链蒸馏」,为 R1V 提供关键技术创新,并提升 R1V 性能。
此外,基于 R1V 模型,Skywork 团队设计了一种灵活在 R1V 中扩展语音理解模态的方式,从而实现一个全模态思考大模型,该在单个模型中同时实现图像、视频、语音的全模态理解能力,并在语音和视觉理解评测中斩获多项 SOTA 成绩。未来,昆仑万维将陆续公布测评成绩、开源全模态思考大模型。
目前昆仑万维的 Skywork R1V 已上架 HuggingFace 和 GitHub,详细技术报告也已公布。
HuggingFace:https://huggingface.co/Skywork/Skywork-R1V-38B