国思软件 - 阿里通义万相开源业内首个「首尾帧生视频模型」

　　昨晚，阿里通义宣布开源业内首个「首尾帧生视频模型」—— Wan2.1-FLF2V-14B，只需要提供两张照片作为首帧和尾帧，模型便能自动生成一段丝滑流畅的高清视频。

　　官方介绍，本次开源的「首尾帧生视频模型」基于 Wan2.1 文生视频 14B（参数量）大模型打造，支持生成时长 5 秒的 720p 高清视频。据了解，阿里通义发布的 Wan2.1 系列模型采用了先进的 DiT 架构，其中：

高效的视频压缩 VAE 模型显著降低了运算成本；
模型的 Transformer 部分基于主流的视频 DiT 结构，通过 Full Attention 机制精准捕捉长时程的时空依赖关系，确保了生成视频在时间与空间上的高度一致性。
本次发布的首尾帧生视频模型在基础架构模型上，引入了额外的条件控制分支，用户输入的首帧和尾帧作为控制条件，通过这一分支实现了流畅且精准的首尾帧变换。

　　另外模型的训练分为三个阶段，逐步对能力进行提升：

　　目前，「首尾帧生视频模型」已经上线通义万相官网并可直接免费体验，或在 Github、Hugging Face、魔搭社区下载模型进行本地部署。

阿里通义万相开源业内首个「首尾帧生视频模型」