谷歌发布 Gemini，其“多模态”版本旨在与 ChatGPT 竞争

周三，谷歌宣布了其新推出的多模态大型语言模型 Gemini 的问世。该模型由公司的人工智能部门 DeepMind 从头开始构建。Gemini 将支持谷歌的 Bard，而 Bard 此前一直难以摆脱其聊天机器人先驱 OpenAI 的 ChatGPT 的阴影。

根据谷歌首席执行官 Sundar Pichai 和 DeepMind 联合创始人兼首席执行官 Demis Hassabis 在 12 月 6 日的博文中透露，该大型语言模型实际上有三个版本——Gemini Ultra、Pro 和 Nano，分别用于不同的应用。经过“微调”的 Gemini Pro 目前已支持 Bard，而 Nano 版本将出现在 Pixel Pro 智能手机等产品中。Gemini 的各个版本也将在未来几个月内应用于谷歌搜索、广告和 Chrome，但 Ultra 版本要到 2024 年才能公开使用。

与许多人工智能竞争对手不同，Gemini 在发布之初就被设计为“多模态”，这意味着它已经能够处理文本、音频和图像提示。在其附带的演示视频中，Gemini 被口头要求识别眼前的事物（一张纸），然后实时正确地识别用户画的鸭子。其他能力似乎包括推断视频暂停时接下来会发生什么动作，根据视觉提示生成音乐，以及评估儿童的家庭作业——并且经常带着有点俏皮、爱玩文字游戏的个性。不过，值得注意的是，视频描述包含免责声明：“本次演示的目的是为了缩短延迟时间，并为了简洁起见而缩短了 Gemini 的输出。”

在后续的博文中，谷歌证实 Gemini 实际上只响应了静态图像和用户书面提示的组合，并且他们的演示视频经过编辑，以呈现更流畅的音频交互。

Gemini 的配套技术报告表明，该大型语言模型最强大的版本 Ultra，“在 [大型语言模型] 研究和开发中广泛使用的 32 个学术基准测试中的 30 个上，均超越了当前最先进的成果。” 尽管如此，改进似乎有些微小——Gemini Ultra 在多学科问题上的正确率达到 90%，而 ChatGPT 为 86.4%。然而，无论统计上的争论如何，这些结果表明 ChatGPT 可能面临 Gemini 的真正竞争。

[相关：ChatGPT 等 AI 聊天机器人的逻辑出奇地简单。]

不出所料，谷歌在周三的公告中警告说，其新的明星 AI 远非完美，并且仍然容易出现困扰新兴技术的行业普遍存在的“幻觉”——也就是说，大型语言模型偶尔会随机编造不正确或无意义的答案。谷歌还对 Gemini 进行了“任何谷歌 AI 模型最全面的安全评估”，这是谷歌 DeepMind 产品副总裁 Eli Collins 在 12 月 6 日的发布活动上发言时表示的。这包括让 Gemini 接受由艾伦人工智能研究所开发的“真实毒性提示”测试，该测试涉及超过 10 万个有问题的输入，用于评估大型语言模型潜在的政治和人口偏见。

在接下来的几个月里，Gemini 将继续整合到谷歌的产品套件中，并伴随一系列的封闭测试阶段。如果一切按计划进行，Gemini Ultra 驱动的 Bard Advanced 将在明年某个时候向公众开放——但正如现在所熟知的那样，持续的人工智能军备竞赛往往难以预测。

当被问及它是否由 Gemini 驱动时，Bard 告知PopSci，它“不幸地”无法访问“有关谷歌内部项目”的信息。

Bard 在回复PopSci时写道：“如果您有兴趣了解更多关于……‘Gemini’的信息，我建议您通过谷歌官方渠道搜索信息或联系公司内部有权访问此类信息的人员。对于给您带来的不便，我深表歉意，并希望这些信息对您有所帮助。”

更新 2023 年 12 月 8 日上午 11:53： 谷歌于 12 月 6 日发布了一篇博文，澄清了其 Gemini 动手操作视频以及该程序的“多模态”功能。尽管演示视频可能看起来像是 Gemini 对动态图像和语音命令做出了响应，但实际上谷歌提供了静态图像和书面提示的组合。视频随后经过编辑，以减少延迟和提高流畅度。本文的文本已相应修改以反映这一点。