Veo 3 更新:一张图生成音频+视频

  日前,Google 视频生成模型 Veo 3 进行更新,支持用户通过一张图片同时生成音频和视频。

  通过 Veo 3,用户可以上传一张静态图片,系统会根据图片中的内容生成与之匹配的动态视频及声音。该技术尤其适用于广告、动画制作等领域,迅速成为创作者的新利器。

  据悉,本次更新基于谷歌的 T5(Text-to-Text Transfer Transformer)和 VQ-VAE-2(Vector Quantized Variational AutoEncoder)模型打造。

  具体来看,T5 模型负责处理文本生成与理解,而 VQ-VAE-2 则处理图像生成,二者结合能够高效分析图像并生成与之对应的音频、对话或动态内容。

  目前,新版 Veo 3 已上架 Google Flow 创作平台。