今天在 Adobe MAX(该公司年度创意大会)上,Adobe 将预览一项名为“Beyond the Seen”的新技术。该技术利用人工智能拓展二维图像的边界,甚至将其转化为沉浸式三维场景。虽然只是一个演示,但它表明专门设计的 AI 图像生成器可以具有深远的商业和艺术应用。
该图像生成器通过扩展室内风景或照片,将其扩展为围绕相机的完整 360 度球形全景图。当然,它无法知道相机后面实际是什么,因此它会利用机器学习来创建一个逼真且无缝的环境,无论是输入图像是山景还是音乐厅的内部。Adobe 的算法还可以估算新环境的三维几何形状,这使得可以更改视角,甚至让相机似乎可以在环境中移动。
虽然图像扩展或外绘并非新鲜事物,但 Adobe 的 AI 生成器是第一个专门围绕它构建的。例如,DALL-E 2 允许用户以小块扩展图像,而 Stable Diffusion 则需要一种变通方法。
Adobe 的 AI 图像生成器在几个关键方面与 DALL-E 2 和 Stable Diffusion 等更通用的图像生成器略有不同。首先,它经过的训练数据集更有限,并且有一个特定的目的。DALL-E 2 和Stable Diffusion 经过数十亿文本-图像对的训练,涵盖了从鳄梨和艾薇儿·拉维尼到斑马和赞达亚的所有概念。Adobe 的生成器仅经过大约 250,000 个高分辨率 360 度全景图的数据集训练。这意味着它非常擅长从种子图像生成逼真的环境,但它没有文本到图像的功能(换句话说,你不能输入文本提示并得到奇怪的结果)或任何其他通用生成功能。它是一个有特定工作任务的工具。但是,它输出的图像尺寸要大得多。
Adobe 的生成器目前使用一种称为生成对抗网络(GAN)的人工智能技术,而不是扩散模型。GAN 的工作原理是利用两个神经网络相互对抗。生成器负责创建新的输出,而判别器必须猜测它看到的任何图像是来自生成器的输出还是来自训练集的实际图像。随着生成器在创建逼真图像方面越来越出色,它在欺骗判别器方面也越来越出色,从而创建了一个功能性的图像生成算法。
与此同时,DALL-E 2 和 Stable Diffusion 使用的扩散模型从随机噪声开始,然后对其进行编辑以创建逼真的图像。最近的研究表明,它们可以产生比 GAN 更逼真的结果。鉴于此,Adobe Research 副总裁兼主管 Gavin Miller 告诉《PopSci》,该算法可能会在商业发布前改编为使用扩散模型。
尽管这项技术仍处于早期开发阶段,但 Adobe 强调了几种潜在的应用。虽然有关于元宇宙和从二维快照生成三维世界的说法,但常规的图像扩展功能可能会首先被证明是有价值的。Adobe 在演示视频中展示的一个例子是,它的算法如何允许将“镜面”(或闪亮)渲染对象插入图像中。AI 生成器被用来推断相机后面和物体上方可能有什么,以便为该闪亮物体创建逼真的反射。这种能力将使建筑师和室内设计师能够更轻松地为其项目创建看起来准确的渲染图。
同样,它也将使摄影师和摄像师能够以更自然的方式扩展其图像的背景。Miller 解释说,自 2010 年以来一直存在于 Photoshop 等 Adobe 应用中的内容感知工具能够生成自然主义的纹理,而新的生成模型则能够创建纹理和结构。
虽然还没有关于该技术何时向公众发布的消息,但 Miller 表示,今天发布它“是 Adobe 追求更广泛的生成技术议程的一部分”。使用硬件创建 360 度全景图一直都是可能的,但很快就可以仅使用软件创建逼真的全景图。这确实可以改变现状——是的,也许可以让小型创作者制作与元宇宙相关的体验。