

像 DALL-E 2 和 Stable Diffusion 这样的由人工智能驱动的文本到图像生成器,今年取得了巨大成功。几乎不可能在 Twitter 上刷屏而不看到一些由(通常很荒谬的)书面提示生成的图像。然而,研究人员已经在关注下一代生成器:文本到视频。
在本周发布的论文中,Meta AI 的研究人员公布了一个他们称之为 Make-A-Video 的文本到视频生成器。它接收诸如“一个泰迪熊正在画肖像”或“一只穿着带有红色斗篷的超级英雄服装的狗在天空中飞翔”之类的书面提示,并返回一个短视频片段,展示机器学习模型重现该提示的最佳尝试。这些视频显然是人工制作的,但仍然非常令人印象深刻。
除了书面提示,Make-A-Video 还可以根据其他视频或图像制作视频。它可以为静态图像添加运动,并创建连接两个图像的视频。

目前,Make-A-Video 的无声片段由 16 帧组成,以 64 x 64 像素输出,然后使用另一个 AI 模型放大到 768 x 768 像素。它们只有五秒钟长,只描绘单一动作或场景。虽然我们距离 AI 从零开始创作一部长片还有很长的路要走(尽管 AI 以前写过剧本甚至导演过电影),但 Meta 的研究人员打算通过未来的研究来克服这些技术限制。
与最好的文本到图像生成器一样,Make-A-Video 使用一种称为“扩散”的技术。它从随机生成的噪声开始,然后逐步调整它以更接近目标提示。结果的准确性很大程度上取决于训练数据的质量。
根据宣布它的博客文章,Make-A-Video 的 AI 通过“配对的文本-图像数据学习‘世界的样子’,并通过没有文本关联的视频素材学习‘世界如何运动’。”它接受了来自 LAOIN-5B 数据库的超过 23 亿对文本-图像数据,以及来自 WebVid-10M 和 HD-VILA-100M 数据库的数百万个视频的训练。

Meta 声称,带有配对文本的静态图像足以训练文本到视频模型,因为动作、行为和事件可以从图像中推断出来——比如一个女人喝咖啡,或者一个大象踢足球。同样,即使没有任何描述它们的文本,“无监督视频也足以学习世界中不同的实体如何移动和互动。” Make-A-Video 的结果表明他们是正确的。
研究人员表示,他们已尽力控制训练数据的质量,过滤了 LAOIN-5B 数据集中所有包含 NSFW 内容或有毒词汇的文本-图像对,但他们承认,就像“在网上数据上训练的所有大规模模型一样,[他们的] 模型已经学会了并很可能放大了社会偏见,包括有害的偏见。”防止 AI 生成种族主义、性别歧视以及其他冒犯性、不准确或危险的内容是该领域的最大挑战之一。
目前,Make-A-Video 仅供 Meta 的研究人员使用(尽管您可以在此处注册您的兴趣以获取访问权限)。尽管该团队展示的视频令人印象深刻,但我们必须承认它们很可能是经过挑选的,以尽可能地展示该算法的最佳效果。尽管如此,很难不认识到 AI 图像生成已经走了多远。就在几年前,DALL-E 的结果还只是略微有趣——现在它们已经达到了照片级的逼真度。
文本到视频对 AI 来说无疑更具挑战性。正如马克·扎克伯格在 Facebook 上所说,“生成视频比生成照片要困难得多,因为除了正确生成每个像素之外,系统还必须预测它们如何随时间变化。”这些视频具有抽象、不自然、卡顿的质量——描绘了不太自然的运动。
尽管质量不高,扎克伯格称这项工具为“令人惊叹的进展”。