Dall-E Mini 图像生成器的荒谬之处可能是其主要吸引力

这个由人工智能驱动的系统骗不了任何人。那些真正需要引起我们关注的技术才是那些能够做到这一点的。
A grid of 12 images depict the Star Wars character Chewbacca performing office job tasks.
Chewbacca 工作照。Dall-E Mini / Shuman Ghosemajumder

萨尔瓦多·达利(Salvador Dalí),这位 1904 年出生的西班牙艺术家,以其超现实主义绘画而闻名:融化的时钟、长着昆虫般细腿的大象、扭曲的人类面孔和肢体。Dall-E (发音同 Dalí) Mini,一个于六月初首次亮相的新人工智能程序,正迅速被认为是另一个超现实主义艺术的来源,它通过用户生成的请求生成图像,例如在法庭上作证的牧场沙拉酱瓶如何吃锤子的 wikiHow 指南,以及电影《寂静岭》中的护士吃披萨

这些图像很有趣,该程序也因其有趣的艺术而获得了在线上的关注。用户可以输入任何短语,然后就能看到他们所写的 AI 生成的图像瞬间生成。Dall-E Mini 是一个开源项目,基于人工智能研究实验室 OpenAI 的原始 Dall-E 技术,该技术可以根据文本生成逼真的图像和艺术。Dall-E Mini 制作的大部分艺术作品都引来了笑声。但是,随着这些技术变得越来越完善和广泛使用,滥用的风险也在增加——而这绝不是件好笑的事情。

Dall-E Mini 是在 OpenAI 于 2022 年 4 月正式发布的 Dall-E 2 之后推出的。Dall-E 2 通过建立数十亿在线图像与其附带描述之间的关联来运行。Dall-E Mini 的运行方式类似,但规模要小得多。由 Boris Dayma 领导的该项目使用了来自三个数据集的约 1500 万张图像来训练其模型,其规模大约是 OpenAI 原始 Dall-E 程序的 27 倍。Dall-E Mini 托管在 Hugging Face 上,这是一家提供机器学习模型和工具的公司,他们表示其使命是“普及优秀的机器学习”。

用户几乎可以制作出任何他们想要的图像,尽管结果更多倾向于滑稽而不是准确。曾任职于技术安全公司 F5 的人工智能主管 Shuman Ghosemajumder 表示,这种喜剧效果和吸引力部分源于意想不到的不完美。“它之所以有趣,部分原因在于图像并不完美,”Ghosemajumder 说。“有印象派风格的图像,有噩梦般的图像,有疯狂的图像。所有这些都很有趣,也很容易分享。”

Ghosemajumder 表示,他可以看到这类技术在公众的关注下经历几个不同的阶段。起初,人们对一个程序可能拥有的能力感到好奇。当人们探索他们可以创造的复杂性时,会产生惊奇和学习——正如在线上已经显示的那样。然后,他说第二阶段是从纯粹的娱乐过渡到人们理解他们所能产生的价值。

“您可以为特定目的生成粗略的插图,并且可以更好地了解该技术的当前状态,以便您可以开始计划如何在未来使用更高级版本的该技术,”Ghosemajumder 说。

展望未来,他设想这些技术被看待的第三个阶段是它们将为未来更高级的创新奠定基础,例如高质量的合成视频。

但是,随着这些创新的进步,制造危险和误导性图像的风险也在增加。

[相关:5 种让 Craiyon(以前叫 Dall-E mini)听你指挥的方法]

Ghosemajumder 说,目前 Dall-E Mini 的图像“质量低下”,足以让用户通常知道它们是人工智能生成的,而不一定是实际拍摄到的画面,比如在法庭上作证的牧场沙拉酱瓶。但是,当辨别某个东西是人工智能平台制作的还是在非数字世界中捕获的变得更加困难时,人们就更容易创建虚假信息来助长在线上的虚假信息宣传活动。

“人们将不再只能创建图画版或星球大战中达斯·维达的印象派版本,”Ghosemajumder 说。“取而代之的是,他们会想,‘哇,这看起来像一个真人正在做某事。’我或许可以创建一个政治家做他们从未做过的事情的图像,并最终创建一个完整的故事线,并利用它来传播虚假信息。”

目前,Dall-E 2 尚未向公众开放,同时 OpenAI 的开发者还在努力解决潜在的滥用风险。(Dall-E Mini 是一个类似的、但由公众制作的开源版本。)同样,谷歌的文本到图像程序Imagen 也尚未向公众开放其平台。在这两种情况下,公司都聘请了研究人员和艺术家来测试程序、改进运营和训练数据、确保安全并提升艺术质量。Ghosemajumder 说,在全面发布之前进行有限发布是“一种被广泛接受的软件原则”,他认为随着技术变得越来越复杂,这一点将变得越来越重要。

Ghosemajumder 表示,归根结底,Dall-E Mini 等技术最大的优势之一在于,它们将使更多人能够比现在更容易地可视化事物。他将其视为高质量内容的民主化。

“它释放了人们的创造力,并允许人们更有效地沟通,”Ghosemajumder 说。“这有潜力使人们在生成他们想要可视化的不同概念的插图和照片时效率更高、效果更好。”

至于 Ghosemajumder,他创作的 Dall-E Mini 作品是一系列描绘 Chewbacca 如果有办公室工作会如何度过一天的图像。

 

更多优惠、评测和购买指南

 

Maria Parazo Rose

前编辑实习生/撰稿人

Maria Parazo Rose是Grist的空间数据分析师,她报道并制作关于原住民事务、保护主义和气候移民的地图。她的作品发表在Grist、New York Focus、Popular Science、The Allegheny Front和NPR等媒体上。


© .