

撰写关于 Sora 的文章,很难不感觉自己的大脑在融化。但继 OpenAI 昨天下午 令人惊讶的人工智能发布 之后,我们有了迄今为止最好的证据,证明一个不受监管、没有后果的科技行业想卖给你什么:一套耗能巨大的 黑箱 AI 产品,能够生成逼真的媒体,挑战合法性、隐私和客观现实的边界。
除非有果断、深思熟虑和 全面的监管,否则在线环境可能会变得面目全非,而且比以往任何时候都更加不可信。一旦人们对超逼真的猛犸象和纸艺海洋景观的“哇”效应消退,首席执行官 Sam Altman 最新的扭曲项目仍然令人担忧。
Sora(日文意为“天空”)背后的概念并非什么新鲜事:它显然是一个仅根据用户描述性文本输入就能生成高清视频的 AI 程序。简单来说:Sora 据称结合了驱动 DALL-E 的文本到图像扩散模型与一种称为 Transformer 的 神经网络系统。虽然 Transformer 通常用于解析文本等海量数据序列,但 OpenAI 据称已将其技术改编为以类似的方式处理视频帧。
“显然”、“据称”、“据称”。描述 Sora 需要所有这些限定词,因为正如 MIT Technology Review 所解释的那样,OpenAI 仅在媒体同意等到公司正式发布后才“征求外部专家的意见”,才允许访问昨天的示例剪辑。即使 OpenAI 确实 预览了他们最新的实验,他们也没有发布技术报告或后端演示来展示模型“实际工作”。
这意味着,在可预见的未来,没有一个外部监管机构、民选官员、行业监督机构或普通科技记者会知道 Sora 如何 渲染由 AI 制作的最令人不安的媒体, Altman 的公司用什么数据 来训练其新程序,以及 需要多少能源 来支持这些一分钟的视频渲染。你只能任由 OpenAI 选择与公众分享什么——这家公司的 CEO 反复警告 AI 带来的灭绝风险 与核战争不相上下,但只有像他这样的人才值得信赖,拥有阻止这一切发生的资金和资源。
我们到达这里的速度与视频本身一样令人眼花缭乱。 New Atlas 昨天对情况进行了很好的总结——OpenAI 的示例剪辑绝非完美,但在短短九个月内,我们已经从“搞笑的恐怖”人工智能威尔·史密斯吃意大利面,到几乎照片级逼真、高清晰度的视频,描绘了拥挤的城市街道、已灭绝的动物和虚构的儿童奇幻角色。九个月后,类似的技术会是什么样子?——在可能成为现代历史上最具影响力的美国总统大选之一的前夕。
一旦你对 Sora 的噱头印象感到厌倦,就很难忽视其令人不安的含义。当然,这些视频是技术上的奇迹。当然,Sora 可能会产生创新、有趣甚至有用的结果。但是,如果有人利用它来产生,嗯,任何 不是“创新”、“有趣”或“有用”的东西呢?人类比任何生成式 AI 程序都更有创造力。到目前为止,越狱这些东西 只需要一些奉献、耐心和想要为了恶意目的而扭曲技术的愿望。
像 OpenAI 这样的公司承诺,他们 目前正在开发安全协议 和 行业标准,以防止不良行为者利用我们新的技术世界——他们继续用 Sora 这样的项目鲁莽地开辟未知领域。然而,他们在实施最基本的安全措施方面却屡屡失败:深度伪造滥用人体,学区利用 ChatGPT 来屈从于法西斯式的图书禁令,而 事实与虚构之间的界限继续模糊。
[相关:生成式 AI 可能在 2024 年面临其最大的法律考验。]
OpenAI 表示,目前没有 Sora 的公开发布计划,并且他们正在进行红队测试以“评估危害或风险的关键领域”。但是,除非有任何形式的监管反击,否则 OpenAI 可能会尽快发布 Sora。
“Sora 为能够理解和模拟现实世界的模型奠定了基础,我们认为这一能力将是实现 [通用人工智能] 的重要里程碑,”OpenAI 在昨天的公告中表示,再次明确提到了该公司创造与人类几乎无法区分的人工智能的目标。
Sora,一个理解和模拟现实世界的模型——至少是现实世界中剩下的部分。