4 月 23 日消息,AI 顶会 ICLR 2025 大会上,阿里巴巴达摩院被收录的 13 篇论文中,聚焦于视觉生成模型底层框架 DiT 改进优化的一篇受到了关注。
DyDiT 基于主流架构 DiT 进行优化,引入动态计算机制,可根据时间步和空间特征动态调整模型宽度和资源分配,显著提升推理效率并减少冗余计算。
实验数据显示,DyDiT 在仅微调3% 参数的情况下,将 DiT-XL 的 FLOPs 减少一半,生成速度提升 1.73 倍,ImageNet FID 得分为 2.27,与原始模型 2.07 接近。
该架构由达摩院湖畔实验室、新加坡国立大学与清华大学联合提出,支持用户按需求调节算力分配,兼顾推理效率与生成质量,具备灵活部署潜力。
据悉,DyDiT 已适配开源文生图模型 FLUX,升级版 Dy-FLUX 已在开源平台上线,未来计划推广至更多图像、视频生成任务。
ICLR 是 AI 领域顶级会议之一,达摩院今年共有 13 篇论文入选,其中 3 篇获 Spotlight,覆盖生成模型、NLP、医疗与生物智能等方向。(袁宁)