ChatGPT 将拥有一个声音——或者更确切地说,五个声音。周一,OpenAI宣布,其备受关注、备受争议的大型语言模型(LLM)现在可以与用户进行语音对话,并解析上传的图片和图像。
在视频演示中,ChatGPT根据“讲一个关于超级向日葵刺猬拉里的故事”的提示,即兴创作了一个儿童睡前故事。ChatGPT随后描述了它的刺猬主角,并提供了关于它的家和朋友的细节。在另一个例子中,通过ChatGPT的智能手机应用程序上传了一张自行车的照片,并附带请求“帮我调低我的自行车座椅”。ChatGPT随后通过用户上传的照片和用户文本输入的组合,提供了分步说明和工具建议。该公司还描述了ChatGPT如何根据照片中识别出的冰箱和储藏室的食材来帮助制作晚餐食谱,就图片中的地标进行对话,并协助完成数学家庭作业——尽管数字并非ChatGPT的强项。
OpenAI表示,最初的五个音频声音基于一个新的文本转语音模型,该模型仅需输入文本和“几秒钟”的语音样本即可生成逼真的音频。当前的语音选项是与专业配音演员合作设计的。
与LLM先前在幕后的开发不同,OpenAI最新的进展特别侧重于用户与该程序的直接体验,因为该公司正寻求扩大ChatGPT的范围和效用,最终使其成为一个更完整的虚拟助手。音频和视觉附加功能在改善残障用户的可访问性方面也非常有帮助。
OpenAI在其9月25日的公告中解释说:“我们从与Be My Eyes(一款免费的、面向盲人和低视力人群的移动应用程序)的合作中直接汲取了这种方法,以了解其用途和局限性。用户告诉我们,他们发现就包含背景人物的图像进行一般性对话很有价值,例如,当你试图弄清楚遥控器设置时,电视上出现了某人。”
多年来,像Siri和Alexa这样流行的语音AI助手,通过可编程的特定命令数据库提供特定的功能和服务。《纽约时报》指出,虽然更新和修改这些数据库通常很耗时,但LLM替代方案可以更快、更灵活、更细致。因此,亚马逊和苹果等公司正在投资,对它们的AI助手进行改造,以利用它们自己的LLM。
OpenAI正在小心翼翼地努力,以确保其视觉识别能力尽可能有用,同时还要尊重第三方的隐私和安全。该公司今年早些时候首次展示了其视觉识别功能,但表示在更全面地了解其潜在的滥用方式之前,不会向公众发布任何版本。OpenAI表示,鉴于该程序存在众所周知的准确性和隐私问题,其开发人员采取了“技术措施,以显著限制ChatGPT分析和直接陈述有关人的信息的能力”。此外,当前模型仅在英语任务方面“熟练”——其能力在其他语言上显著下降,尤其是那些使用非罗马字母的语言。
OpenAI计划在未来两周内逐步推出ChatGPT的音频和视觉新升级,但仅限于其Plus和Enterprise计划的付费订阅用户。不过,这些功能“不久之后”将向更多用户和开发人员提供。