谷歌 DeepMind 从单张图像生成视频 | Popular Science

本周早些时候，谷歌先进的 DeepMind 神经网络团队公布了一项名为 Transframer 的新功能，该功能允许 AI 从单个图像输入生成长达 30 秒的视频。乍一看，这似乎是一个巧妙的小把戏，但其意义远不止一个有趣的 .GIF 文件。

“Transframer 在各种视频生成基准测试中均处于最先进水平，并且……可以从单个图像生成连贯的 30 秒视频，而无需任何明确的几何信息，”DeepMind 研究团队解释道。基本上，Transframer 所需要的只是一张照片，然后它会对其进行分析，识别图像的构图，即诸如桌子、走廊或街道之类的线索。在利用这些“上下文图像”预测对象的周围环境后，它会构想（并随后展示）该目标从不同角度看起来会是什么样子。DeepMind 团队用椅子、笔记本电脑、一杯水甚至一本 GRE 教科书等目标来说明了这一过程。

“给定一组带有相关注释（时间戳、相机视角等）的上下文图像，以及一个查询注释，任务是预测目标图像的概率分布，”该团队继续说道。“该框架支持一系列视觉预测任务，包括视频建模、新视角合成和多任务视觉。”

正如Futurism 指出的那样，Transframer 未来有一天可以通过利用机器学习来构建数字环境，而不是依赖耗时更长的渲染方法，从而为视频游戏行业开辟一个全新的领域。随着技术的进步，DeepMind 的 Transframer 训练可以为艺术、科学分析和进一步的 AI 开发开辟全新的途径。此外，一位 Twitter 用户设想将他们的 OpenAI 的 DALL-E 图片叠加在 Transframer 程序上，以创建堆叠式 AI 创作——就好像这些图像还不够超现实一样。