谷歌推出基于图像的视频到文本生成器

发表于 2022年10 月7日星期五上午 3:02:10

谷歌研究人员宣布开发 Imagen Video，这是一种人工智能系统，能够根据口头请求生成分辨率为 1280 × 768 像素和每秒 24 帧的视频。

该工具基于 Imagen 算法，类似于 DALL-E 2 和稳定扩散。图像生成器使用大型预训练语言神经网络和级联漫反射模型，并结合了“深层次的单词理解和前所未有的逼真度”。

Imagen 生成的图像。数据：谷歌。

正如谷歌研究人员解释的那样，Imagen Video 采用文本描述并创建一个 16 帧的视频，分辨率为 24×48 像素，频率为 3 FPS。然后系统会缩放并“预测”其他图像。

因此，该算法生成了一个 128 帧的动画，分辨率为 1280×768 像素，频率为 24 FPS。

视频生成的第一阶段是 Imagen Video。数据：谷歌。

视频生成的中间阶段 Imagen Video。数据：谷歌。

Imagen Video 生成的成品视频。数据：谷歌。

为了训练 Imagen Video，开发人员使用了 1400 万个视频描述和 6000 万个图像-文本对，以及公开可用的 LAION-400M 数据集，这使得该模型能够应用许多美学方面。

Imagen Video 生成的视频。数据：谷歌。

在测试过程中，研究人员发现该算法可以创建“水彩”视频或继承梵高的风格。据他们介绍，Imagen Video 展示了对深度和三维度的理解，这使其能够生成视频，就好像它们是由无人机录制的一样。

Imagen Video 生成的视频。数据：谷歌。

此外，系统能够正确显示文本。

“与 Stable Diffusion 和 DALL-E 2 不同，它们试图将“logo for Diffusion”之类的查询转换为可读的单词，Imagen Video 可以毫无问题地复制它，”项目文件说。

根据阿尔伯塔大学的人工智能研究员 Matthew Guzdial 的说法，将文本转换为视频的问题尚未解决。

“就质量而言，我们不太可能很快达到 DALL-E 2 或 Midjourney 之类的水平。 [создания роликов]“，他说。

为了消除视频中的抖动并消除失真，Imagen Video 团队计划与 Phenaki 的开发人员合作。这是 Google 的另一款生成器，可将冗长的详细提示转换为两分钟质量低劣的视频。

谷歌还指出，用于训练的数据包含不适当的内容，这就是 Imagen Video 有时会创建描述暴力或性行为的剪辑的原因。因此，该公司不打算在问题得到解决之前发布模型或其源代码。

回想一下，9 月份，一位爱好者开发了基于文本的稳定扩散视频动画生成器。

8 月，TikTok 推出了基于文字的视频背景工具。

6 月，中国研究人员开发了一种具有 90 亿参数的 CogVideo 转换器，用于将文本转换为动画。

在 Telegram 上订阅 ForkLog 新闻：ForkLog AI – 来自 AI 世界的所有新闻

在文本中发现错误？选择它并按 CTRL+ENTER

资讯来源：由0x资讯编译自FORKLOG。版权归作者Марина Глайборода所有，未经许可，不得转载