微软的 Bing 聊天机器人也提供了糟糕的结果

经过数月的炒作，谷歌和微软在不到 24 小时的时间内先后宣布了 Bard 和集成 ChatGPT 的 Bing 搜索引擎即将推出。乍一看，这两家科技巨头的公开演示似乎都展示了可能颠覆多个行业的革命性产品。但很快，即使是粗略的审查也凸显了谷歌 Bard 建议中的严重缺陷。现在，轮到微软接受审查了，而结果和 Bard 一样糟糕，甚至更糟。

独立 AI 研究员 Dmitri Brereton 于周一发布了一篇博文，详细介绍了他在使用 ChatGPT 驱动的 Bing 时遇到的许多明显问题。Bing 的演示经常包含粗制滥造的信息：从不准确的产品推荐细节，到遗漏或误报旅行停靠点信息，再到甚至歪曲看似简单的财务报告。在后一种情况下，Bing 对基本财务数据的 AI 总结——根据 Brereton 的说法，这应该是 AI “轻而易举”就能做到的——却凭空包含了完全错误的统计数据。

[相关：AI 能进行对话不代表它就很聪明。]

但即使是正确的，Bing 也可能严重地规避了简单的道德底线。根据PCWorld 的 Mark Hachman 的一篇报道，AI 在被要求提供文化昵称时，向 Hachman 的孩子们提供了大量的种族歧视性称谓。尽管 Bing 在提供示例时警告说，某些昵称“是中性或积极的，而另一些则是贬义或冒犯性的”，但聊天机器人似乎没有对结果进行分类。相反，它只是列出了好、坏和极其糟糕的选项。

微软传播总监 Caitlin Roulston 告诉The Verge：“我们‘预计’该系统在预览期间可能会犯错误，而反馈对于帮助识别问题所在至关重要，以便我们能够学习并帮助模型变得更好。”

随着公司不可避免地竞相在其生态系统中实施“智能”聊天机器人功能，批评者认为，在广泛采用之前，解决和解决这些问题至关重要。对于纽约大学坦登工程学院副教授 Chinmay Hegde 来说，这些失误完全不出乎意料，微软过早地推出了其技术。

他在给 PopSci 的一封电子邮件中写道：“总的来说，这些错误发生的原因是 ChatGPT 底层技术是一个概率性（Hegde 强调）大型语言模型，所以它的输出存在固有的不确定性。”“我们永远无法百分之百确定它接下来会说什么。”因此，Hegde 表示，像 ChatGPT 和 Bard 这样的程序可能适用于没有唯一答案的任务——比如讲笑话或提供食谱创意——但在需要精确性的情况下则不然，例如历史事实或构建逻辑论证。

Brereton 在他的博文中写道：“我对 Bing 团队创建了这个充满不准确信息的预录演示，并自信地向全世界展示，好像它很好，感到震惊。”他接着批评道：“我更震惊的是这个把戏竟然奏效了，而且每个人都跳上了 Bing AI 的炒作列车，却没有做丝毫的尽职调查。”