OpenAI 撤下了与斯嘉丽·约翰逊“完全不相似”的 ChatGPT 语音

这位演员在萨姆·奥特曼最喜欢的电影《她》中扮演了一个有感知能力的聊天机器人。
OpenAI logo and Sam Altman in background on screen.
立陶宛考纳斯 - 2023 年 11 月 19 日:背景屏幕上的 OpenAI logo 和 Sam Altman。OpenAI 解雇 CEO Sam Altman。高品质照片 Deposit Photos

更新:2024 年 5 月 20 日,美国东部时间晚上 8:28:斯嘉丽·约翰逊的公关团队向多家新闻媒体发布声明,称她的律师团队“写了两封信给奥特曼先生和 OpenAI,阐述了他们所做的事情,并要求他们详细说明‘Sky’语音的创建过程。因此,OpenAI 不得不 reluctantly(不情愿地)同意撤下‘Sky’语音。”

约翰逊透露,奥特曼曾于 2023 年 9 月寻求使用她声音的许可,但她拒绝了。

“在这个我们都在努力应对深度伪造、保护我们自身形象、我们自身作品、我们自身身份的时代,”约翰逊写道,“我认为这些问题理应得到绝对清晰的解释。我期待以透明和通过适当立法来解决此事,以帮助确保个人权利得到保护。”


OpenAI 上周发布的 OpenAIGPT-4o 系统收到了广泛的反应。但大多数看过该多模态生成式 AI 系统运行的人至少对一件事表示认同——它的默认语音“Sky”绝对听起来“调情味十足”,这是个比较委婉的说法。

在 Sky 升级亮相不到一周后,OpenAI 宣布,他们“正在努力暂停”该语音的可用性,同时“处理”互联网上关于该语音的疑问。另外,顺便说一句,它“绝非模仿斯嘉丽·约翰逊”或她 2013 年科幻电影《她》中扮演的那个有自我意识的 AI 助手

大多数用户在 OpenAI 去年年底公开推出 ChatGPT 的新语音时,似乎并不介意,甚至没有注意到 Sky 可能与流行文化相似之处。但随着 GPT-4o 更具表现力的升级,这种情况在一夜之间发生了改变。一位CNN 评论员将 GPT-4o 的 Sky 语音描述为“令人拍案叫绝”和“令人毛骨悚然”,而《Ars Technica》则称它现在听起来“令人不安地逼真”。就连《每日秀》也注意到了这一点。

“这显然是为迎合男性自尊而设计的。你能明显感觉到是男人创造了这项技术,”节目记者 Desi Lydic 上周在描述它为“饥渴的机器人婴儿声音”时说道。

但正是与《她》的相似之处主导了 GPT-4o 的大部分报道。斯派克·琼斯于 2013 年上映的电影讲述了一个孤独的男人爱上了(剧透:并被伤了心)他日益有自我意识的 AI 手机助手,该助手由约翰逊配音。OpenAI 首席技术官 Mira Murati 上周在采访中否认,称有意借鉴约翰逊的这部主角角色,尽管暂停了 Sky 的可用性,但该公司的新博文加倍强调了这一说法。据 OpenAI 称,Sky 和 ChatGPT 的其他四个声音是经过数月精心策划和考虑的结果,任何与约翰逊的相似之处纯属巧合——尽管 CEO Sam Altman 曾说过《她》是他有史以来最喜欢的电影——这发生在 2023 年 9 月推出 ChatGPT 声音的两周前。而且,在 GPT-4o 上周发布后不久,他简单地发了一条‘her’的推文

OpenAI 如何选择其“永恒”的聊天机器人语音

5 月 19 日的博文中,OpenAI 概述了其选择 GPT 语音选项的过程。据报道,除了 Sky 之外,Breeze、Cove、Ember 和 Juniper 这些角色在与演员、人才机构、行业顾问和选角导演进行为期五个月的咨询后设计出来。该公司随后确定了一个标准列表,每个语音都需要满足这些标准,以创造他们认为最吸引人、最普适的选择。其中一些特征包括需要有才华、掌握多种语言的演员,能够进行有魅力的、平易近人的、值得信赖的表演——同时还需要“一种永恒的声音”,尽管尚不清楚什么可能决定了这种品质。

[相关:OpenAI 解散了专注于防止失控 AI 的团队。]

设计师于 2023 年 5 月发布了选角通知,据报道收到了 400 多份申请。每个演员的参赛作品都包含预先录制的、脚本化的 ChatGPT 回应,内容从“回答关于正念的问题到构思旅行计划,甚至进行关于用户一天的对话”不等。然后,该团队采访了 14 名决赛选手,讨论了“人类-AI 语音交互的愿景”,同时讨论了该技术的“能力、局限性和风险”以及 OpenAI 持续的“安全措施”。(没有提及这些安全措施是否包括现已完全解散的超级对齐团队,该团队的联合负责人上周公开辞职,理由是担心“公司的核心优先事项”。)

最终的五名演员于去年 6 月和 7 月前往旧金山进行了录音和面对面会议,之后 OpenAI 于 2023 年 9 月公开推出了 ChatGPT 的新语音。在接下来的七个月里,大多数用户似乎并不介意,甚至没有注意到任何 AI 语音可能存在的流行文化相似之处,但随着 GPT-4o 更具表现力的升级,这种情况在一夜之间发生了改变。

通过对话以及通过摄像头输入解读面部表情的能力,GPT 的语音获得了新的个性化特点和情感能力——以及最近的约翰逊比较。目前尚不清楚该公司计划花多长时间来调整 Sky 的声音,以及改版后的声音会是什么样子。

OpenAI 没有说明潜在的法律威胁是否是幕后因素,在发稿时也没有回应《PopSci》的置评请求。

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .