Google 的 DeepMind AI 可以将单个图像“转换”成视频

这款 AI 只需要一张静态图像就能生成动态图像。
Screenshot of DeepMind Transframer image examples from Google
Transframer 可以从一张图像中构想出周围的环境。 Google DeepMind

本周早些时候,谷歌先进的 DeepMind 神经网络团队公布了一项名为 Transframer 的新功能,该功能允许 AI 从单个图像输入生成长达 30 秒的视频。乍一看,这似乎是一个巧妙的小把戏,但其意义远不止一个有趣的 .GIF 文件。

“Transframer 在各种视频生成基准测试中均处于最先进水平,并且……可以从单个图像生成连贯的 30 秒视频,而无需任何明确的几何信息,”DeepMind 研究团队 解释道。基本上,Transframer 所需要的只是一张照片,然后它会对其进行分析,识别图像的构图,即诸如桌子、走廊或街道之类的线索。在利用这些“上下文图像”预测对象的周围环境后,它会构想(并随后展示)该目标从不同角度看起来会是什么样子。DeepMind 团队用椅子、笔记本电脑、一杯水甚至一本 GRE 教科书等目标来说明了这一过程。

ShapeNet(1 个上下文视图,128×128)。DeepMind。

“给定一组带有相关注释(时间戳、相机视角等)的上下文图像,以及一个查询注释,任务是预测目标图像的概率分布,”该团队继续说道。“该框架支持一系列视觉预测任务,包括视频建模、新视角合成和多任务视觉。”

正如Futurism 指出的那样,Transframer 未来有一天可以通过利用机器学习来构建数字环境,而不是依赖耗时更长的渲染方法,从而为视频游戏行业开辟一个全新的领域。随着技术的进步,DeepMind 的 Transframer 训练可以为艺术、科学分析和进一步的 AI 开发开辟全新的途径。此外,一位 Twitter 用户 设想将他们的 OpenAI 的 DALL-E 图片叠加在 Transframer 程序上,以创建堆叠式 AI 创作——就好像这些图像还不够超现实一样。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .