谷歌推出基于图像的视频到文本生成器

谷歌研究人员宣布开发 Imagen Video,这是一种人工智能系统,能够根据口头请求生成分辨率为 1280 × 768 像素和每秒 24 帧的视频。

该工具基于 Imagen 算法,类似于 DALL-E 2 和稳定扩散。 图像生成器使用大型预训练语言神经网络和级联漫反射模型,并结合了“深层次的单词理解和前所未有的逼真度”。

Imagen 生成的图像。 数据:谷歌。

正如谷歌研究人员解释的那样,Imagen Video 采用文本描述并创建一个 16 帧的视频,分辨率为 24×48 像素,频率为 3 FPS。 然后系统会缩放并“预测”其他图像。

因此,该算法生成了一个 128 帧的动画,分辨率为 1280×768 像素,频率为 24 FPS。

视频生成的第一阶段是 Imagen Video。 数据:谷歌。

视频生成的中间阶段 Imagen Video。 数据:谷歌。

Imagen Video 生成的成品视频。 数据:谷歌。

为了训练 Imagen Video,开发人员使用了 1400 万个视频描述和 6000 万个图像-文本对,以及公开可用的 LAION-400M 数据集,这使得该模型能够应用许多美学方面。

Imagen Video 生成的视频。 数据:谷歌。

在测试过程中,研究人员发现该算法可以创建“水彩”视频或继承梵高的风格。 据他们介绍,Imagen Video 展示了对深度和三维度的理解,这使其能够生成视频,就好像它们是由无人机录制的一样。

Imagen Video 生成的视频。 数据:谷歌。

此外,系统能够正确显示文本。

“与 Stable Diffusion 和 DALL-E 2 不同,它们试图将“logo for Diffusion”之类的查询转换为可读的单词,Imagen Video 可以毫无问题地复制它,”项目文件说。

根据阿尔伯塔大学的人工智能研究员 Matthew Guzdial 的说法,将文本转换为视频的问题尚未解决。

“就质量而言,我们不太可能很快达到 DALL-E 2 或 Midjourney 之类的水平。 [создания роликов]“, 他说。

为了消除视频中的抖动并消除失真,Imagen Video 团队计划与 Phenaki 的开发人员合作。 这是 Google 的另一款生成器,可将冗长的详细提示转换为两分钟质量低劣的视频。

谷歌还指出,用于训练的数据包含不适当的内容,这就是 Imagen Video 有时会创建描述暴力或性行为的剪辑的原因。 因此,该公司不打算在问题得到解决之前发布模型或其源代码。

回想一下,9 月份,一位爱好者开发了基于文本的稳定扩散视频动画生成器。

8 月,TikTok 推出了基于文字的视频背景工具。

6 月,中国研究人员开发了一种具有 90 亿参数的 CogVideo 转换器,用于将文本转换为动画。

在 Telegram 上订阅 ForkLog 新闻:ForkLog AI – 来自 AI 世界的所有新闻

在文本中发现错误? 选择它并按 CTRL+ENTER

资讯来源:由0x资讯编译自FORKLOG。版权归作者Марина Глайборода所有,未经许可,不得转载
提示:投资有风险,入市需谨慎,本资讯不作为投资理财建议。请理性投资,切实提高风险防范意识;如有发现的违法犯罪线索,可积极向有关部门举报反映。
你可能还喜欢