本周早些时候,谷歌先进的 DeepMind 神经网络团队公布了一项名为 Transframer 的新功能,该功能允许 AI 从单个图像输入生成长达 30 秒的视频。乍一看,这似乎是一个巧妙的小把戏,但其意义远不止一个有趣的 .GIF 文件。
“Transframer 在各种视频生成基准测试中均处于最先进水平,并且……可以从单个图像生成连贯的 30 秒视频,而无需任何明确的几何信息,”DeepMind 研究团队 解释道。基本上,Transframer 所需要的只是一张照片,然后它会对其进行分析,识别图像的构图,即诸如桌子、走廊或街道之类的线索。在利用这些“上下文图像”预测对象的周围环境后,它会构想(并随后展示)该目标从不同角度看起来会是什么样子。DeepMind 团队用椅子、笔记本电脑、一杯水甚至一本 GRE 教科书等目标来说明了这一过程。
“给定一组带有相关注释(时间戳、相机视角等)的上下文图像,以及一个查询注释,任务是预测目标图像的概率分布,”该团队继续说道。“该框架支持一系列视觉预测任务,包括视频建模、新视角合成和多任务视觉。”
正如Futurism 指出的那样,Transframer 未来有一天可以通过利用机器学习来构建数字环境,而不是依赖耗时更长的渲染方法,从而为视频游戏行业开辟一个全新的领域。随着技术的进步,DeepMind 的 Transframer 训练可以为艺术、科学分析和进一步的 AI 开发开辟全新的途径。此外,一位 Twitter 用户 设想将他们的 OpenAI 的 DALL-E 图片叠加在 Transframer 程序上,以创建堆叠式 AI 创作——就好像这些图像还不够超现实一样。