ChatGPT现已能“看、听、说”，部分用户可体验

ChatGPT 将拥有一个声音——或者更确切地说，五个声音。周一，OpenAI宣布，其备受关注、备受争议的大型语言模型（LLM）现在可以与用户进行语音对话，并解析上传的图片和图像。

在视频演示中，ChatGPT根据“讲一个关于超级向日葵刺猬拉里的故事”的提示，即兴创作了一个儿童睡前故事。ChatGPT随后描述了它的刺猬主角，并提供了关于它的家和朋友的细节。在另一个例子中，通过ChatGPT的智能手机应用程序上传了一张自行车的照片，并附带请求“帮我调低我的自行车座椅”。ChatGPT随后通过用户上传的照片和用户文本输入的组合，提供了分步说明和工具建议。该公司还描述了ChatGPT如何根据照片中识别出的冰箱和储藏室的食材来帮助制作晚餐食谱，就图片中的地标进行对话，并协助完成数学家庭作业——尽管数字并非ChatGPT的强项。

[相关：某学区使用ChatGPT协助移除图书馆藏书]

OpenAI表示，最初的五个音频声音基于一个新的文本转语音模型，该模型仅需输入文本和“几秒钟”的语音样本即可生成逼真的音频。当前的语音选项是与专业配音演员合作设计的。

与LLM先前在幕后的开发不同，OpenAI最新的进展特别侧重于用户与该程序的直接体验，因为该公司正寻求扩大ChatGPT的范围和效用，最终使其成为一个更完整的虚拟助手。音频和视觉附加功能在改善残障用户的可访问性方面也非常有帮助。

OpenAI在其9月25日的公告中解释说：“我们从与Be My Eyes（一款免费的、面向盲人和低视力人群的移动应用程序）的合作中直接汲取了这种方法，以了解其用途和局限性。用户告诉我们，他们发现就包含背景人物的图像进行一般性对话很有价值，例如，当你试图弄清楚遥控器设置时，电视上出现了某人。”

多年来，像Siri和Alexa这样流行的语音AI助手，通过可编程的特定命令数据库提供特定的功能和服务。《纽约时报》指出，虽然更新和修改这些数据库通常很耗时，但LLM替代方案可以更快、更灵活、更细致。因此，亚马逊和苹果等公司正在投资，对它们的AI助手进行改造，以利用它们自己的LLM。

OpenAI正在小心翼翼地努力，以确保其视觉识别能力尽可能有用，同时还要尊重第三方的隐私和安全。该公司今年早些时候首次展示了其视觉识别功能，但表示在更全面地了解其潜在的滥用方式之前，不会向公众发布任何版本。OpenAI表示，鉴于该程序存在众所周知的准确性和隐私问题，其开发人员采取了“技术措施，以显著限制ChatGPT分析和直接陈述有关人的信息的能力”。此外，当前模型仅在英语任务方面“熟练”——其能力在其他语言上显著下降，尤其是那些使用非罗马字母的语言。

OpenAI计划在未来两周内逐步推出ChatGPT的音频和视觉新升级，但仅限于其Plus和Enterprise计划的付费订阅用户。不过，这些功能“不久之后”将向更多用户和开发人员提供。