谷歌推出基于图像的视频到文本生成器
谷歌研究人员宣布开发 Imagen Video,这是一种人工智能系统,能够根据口头请求生成分辨率为 1280 × 768 像素和每秒 24 帧的视频。
该工具基于 Imagen 算法,类似于 DALL-E 2 和稳定扩散。 图像生成器使用大型预训练语言神经网络和级联漫反射模型,并结合了“深层次的单词理解和前所未有的逼真度”。
Imagen 生成的图像。 数据:谷歌。
正如谷歌研究人员解释的那样,Imagen Video 采用文本描述并创建一个 16 帧的视频,分辨率为 24×48 像素,频率为 3 FPS。 然后系统会缩放并“预测”其他图像。
因此,该算法生成了一个 128 帧的动画,分辨率为 1280×768 像素,频率为 24 FPS。
视频生成的第一阶段是 Imagen Video。 数据:谷歌。
视频生成的中间阶段 Imagen Video。 数据:谷歌。
Imagen Video 生成的成品视频。 数据:谷歌。
为了训练 Imagen Video,开发人员使用了 1400 万个视频描述和 6000 万个图像-文本对,以及公开可用的 LAION-400M 数据集,这使得该模型能够应用许多美学方面。
Imagen Video 生成的视频。 数据:谷歌。
在测试过程中,研究人员发现该算法可以创建“水彩”视频或继承梵高的风格。 据他们介绍,Imagen Video 展示了对深度和三维度的理解,这使其能够生成视频,就好像它们是由无人机录制的一样。
Imagen Video 生成的视频。 数据:谷歌。
此外,系统能够正确显示文本。
“与 Stable Diffusion 和 DALL-E 2 不同,它们试图将“logo for Diffusion”之类的查询转换为可读的单词,Imagen Video 可以毫无问题地复制它,”项目文件说。
根据阿尔伯塔大学的人工智能研究员 Matthew Guzdial 的说法,将文本转换为视频的问题尚未解决。
“就质量而言,我们不太可能很快达到 DALL-E 2 或 Midjourney 之类的水平。 [создания роликов]“, 他说。
为了消除视频中的抖动并消除失真,Imagen Video 团队计划与 Phenaki 的开发人员合作。 这是 Google 的另一款生成器,可将冗长的详细提示转换为两分钟质量低劣的视频。
谷歌还指出,用于训练的数据包含不适当的内容,这就是 Imagen Video 有时会创建描述暴力或性行为的剪辑的原因。 因此,该公司不打算在问题得到解决之前发布模型或其源代码。
回想一下,9 月份,一位爱好者开发了基于文本的稳定扩散视频动画生成器。
8 月,TikTok 推出了基于文字的视频背景工具。
6 月,中国研究人员开发了一种具有 90 亿参数的 CogVideo 转换器,用于将文本转换为动画。
在 Telegram 上订阅 ForkLog 新闻:ForkLog AI – 来自 AI 世界的所有新闻
在文本中发现错误? 选择它并按 CTRL+ENTER