值得了解的生成式AI：从GPT-3到VALL-E | 《大众科学》

这里出现了一个新的人工智能，它仅凭一段简短的语音片段就能模仿某个人的声音。如果你觉得现在有很多能生成图像和文字的奇特人工智能，你说得对！由于可能会令人困惑，我们为你准备了一份快速指南。以下是过去12个月中出现的一些最著名的人工智能。

VALL-E

作为最新的参与者，VALL-E是微软研究人员开发的一款新的人工智能，它可以在仅有三秒钟的种子音频片段的情况下生成一个人的完整声音模型。它在超过7,000名演讲者提供的60,000多小时的英语语音数据上进行了训练，其工作原理是通过一个称为分词（tokenization）的过程将种子片段的内容分解成离散的组件，并将文本分解成称为token的小单元。然后，人工智能的神经网络会根据从短片段中获得的少数token，推测出生成完整模型所需的其他token。其结果——你可以在VALL-E网站上查看——相当令人惊叹。

由于VALL-E这类人工智能模型存在明显的深度伪造（deepfake）用途，微软尚未将其公开发布。（微软此前已投资了DALL-E和ChatGPT的所有者OpenAI，并且据报道还在洽谈投入更多数十亿美元。）尽管如此，它展示了这些生成式AI即使只有最小的种子也能做到的事情。

DALL-E 2

OpenAI的DALL-E 2在去年四月发布时，可以说引发了最近一轮人工智能热潮。它可以根据文本提示创建原创图像，无论你想要逼真的还是完全离奇的。它甚至还可以使用一种称为“外绘画”（outpainting）的技术来扩展现有艺术作品的边界。

DALL-E 2最好的地方在于，任何人都可以免费试用。你的第一个月会获得50个积分，每个积分可以让你根据单个文本提示生成四种不同的图像。之后，你每个月可以获得15个免费积分。

Stable Diffusion

虽然OpenAI控制着DALL-E 2的访问权限，但Stability AI为其图像生成器Stable Diffusion采取了不同的方法：它将其开源。任何人都可以下载Stable Diffusion，并使用一台配置 reasonably powerful 的笔记本电脑创作出令人难以置信的逼真图像和富有想象力的艺术作品。

由于它是开源的，其他公司也能够利用Stable Diffusion推出生成式AI工具。其中最著名的名字是Lensa的Magic Avatars。通过这款智能手机应用程序，你可以上传10到20张照片，这些照片将用于训练一个定制的Stable Diffusion模型，然后生成数十种风格独特的艺术头像。

Midjourney

图像生成的另一个大名鼎鼎的名字是Midjourney，它目前仍处于Beta阶段，并且只能通过Discord频道访问。其算法在过去一年里有了很大的改进。就个人而言，我认为其当前模型——Version 4——生成的图像与其他流行的图像生成器相比，更具吸引力和自然感。不幸的是，通过Discord访问它是一个奇怪的障碍，特别是与Stable Diffusion或DALL-E 2相比。

GPT-3

OpenAI的生成式预训练Transformer 3（GPT-3）语言模型实际上发布于2020年，但随着ChatGPT的发布，它在最近几个月频频登上头条，ChatGPT是一款任何人都可以使用的聊天机器人。它对各种问题和提示的回答通常都是准确的，而且在许多情况下与人类写的文章难以区分。它已经引发了关于大学未来如何检测抄袭的严肃讨论（也许会使用AI检测AI）。此外，它还会写有趣的诗。

虽然ChatGPT是目前世界上最明显的GPT-3应用实例，但它也为其他AI工具提供支持。在本次列出的所有生成式AI中，我们《大众科学》猜测，在不久的将来，你将听到更多关于它的信息。

Codex

OpenAI的GPT-3不仅擅长生成有趣的歌曲和短文，它还能帮助程序员编写代码。这款名为Codex的模型能够根据自然语言提示生成包括JavaScript和Python在内的十几种编程语言的代码。在演示页面上，你可以看到一个短视频，展示了在没有编写一行代码的情况下制作了一个浏览器游戏。这真是太令人印象深刻了！而且Codex已经投入使用了：GitHub Copilot使用它来自动建议完整的代码块。这就像是超级版的自动完成。