DALL-E 的新外绘功能如何运作 |《大众科学》

Open AI，AI 文本到图像生成器DALL-E 2 的开发者，刚刚为其应用程序宣布了一项新功能，称为“外绘”。它允许用户使用 AI 生成的内容来扩展现有的图像和艺术作品。这非常令人兴奋，并且极大地扩展了该工具的功能。

DALL-E 2 是目前最受欢迎的文本到图像生成器之一。凭借超过一百万用户，难怪它创作的内容似乎无处不在。（许多其他文本到图像生成器要么处于封闭测试阶段，例如Stable Diffusion，要么不对公众开放，例如Google 的 Imagen，要么范围更有限，例如Craiyon。）

DALL-E 2 接受文本提示，例如“一位宇航员模仿安迪·沃霍尔风格骑马”，并生成九张 1024x1024 像素的图像来描绘它。它使用一种称为“扩散”的过程，它从随机生成的噪声开始，然后对其进行编辑以尽可能精确地匹配提示的显著特征。

到目前为止，用户在 DALL-E 2 的创作尺寸和纵横比方面受到限制。该 AI 程序只能生成 1024x1024 像素的正方形——任何更大的或不同形状的都不在考虑范围内。可以使用一种称为“内绘”的功能来修改现有艺术品中的细节，但要创建更大的画布，需要使用 Photoshop 等应用程序手动将不同部分拼接在一起。（对于不同的纵横比，您可以裁剪图像，但这会降低整体分辨率。）

现在有了外绘，用户面临的唯一限制——除了内容过滤器——是他们的积分数量。（每个人在第一个月都有 50 个免费生成积分，之后每个月有 15 个积分。可以以 15 美元的价格购买 115 个额外积分。）生成初始图像需要一个积分，每个额外的外绘部分也需要一个积分。

外绘作为 DALL-E 2 的扩展。用户选择一个 1024x1024 像素的正方形区域，他们希望在那里扩展图像，并可以指定任何额外的提示来指导 AI。例如，要为骑马的宇航员添加更多背景，您可以将提示更改为“一位模仿安迪·沃霍尔风格的宇航员在月球上骑马，背景中有星星。”

对于每个外绘部分，DALL-E 2 将提供四个选项供用户选择。如果其中没有一个适合图像，您可以让它重试。

最令人印象深刻的是，外绘“考虑了图像现有的视觉元素——包括阴影、反射和纹理。”这意味着添加的任何细节“都保持了图像的上下文”，并且确实可以看起来像是连贯整体的一部分。

在 DALL-E 2 的外绘公告中，有一个延时视频展示了约翰内斯·维米尔的《戴珍珠耳环的少女》被扩展到其原始尺寸的约 20 倍。它没有显示简单的肖像，而是展示了一位年轻女子站在一间杂乱的房子里。这很有趣，因为只要你不仔细看，它确实看起来像是对原作的延伸。整体风格和氛围都很到位。这几乎就像一个想象中的幕后镜头。

如果您想尝试外绘，您需要注册 DALL-E 2。Open AI 目前正在运行一个滚动等待名单。如果您想注册，可以在这里进行。