为什么AI聊天机器人可能事实不准确 | Popular Science

人工智能驱动的对话工具正在走向主流，这让许多虚假信息研究人员深感担忧。本周，谷歌宣布推出Bard，这是其对OpenAI的ChatGPT的回应，并在巴黎的一次活动中大力推广AI增强功能到其众多核心产品中。同样，微软宣布ChatGPT即将集成到必应中，这款饱受诟病的搜索引擎。在接下来的几个月里，这些对话工具将广泛可用，但问题已经开始显现。

对话式AI是通过一种称为“大型语言模型”（LLMs）的神经网络框架构建的，它们非常擅长生成语法连贯且看起来合理且像人类的文本。之所以能够做到这一点，是因为它们在数百GB的人类文本上进行了训练，其中大部分是从互联网上抓取的。为了生成新文本，模型会通过预测下一个“token”（基本上是一个词或一个复杂词的片段）来工作，给定一个token序列（许多研究人员将其比作我们在学校做的“填空”练习）。

例如，我让ChatGPT写关于PopSci的内容，它开始说：“Popular Science是一本科学技术杂志，首次出版于1872年。”在这里，很明显它是在从我们的“关于我们”页面和我们的维基百科页面等地方抄袭信息，并计算以“Popular Science是…”开头的句子的下一个可能词语。该段落继续以类似的方式进行，每个句子都是ChatGPT训练内容中很自然会跟随的内容。

不幸的是，这种预测下一个合理词语和句子的方法意味着对话式AI可能经常出现事实错误，而且除非你已经知道相关信息，否则很容易被误导，因为它们听起来好像什么都知道。PopSci技术上不再是一本杂志，但谷歌在Bard的推出中更有效地证明了这一点。（这也是为什么大型语言模型可以复述阴谋论和其他冒犯性内容，除非经过专门训练避免这样做。）

[相关：人工智能广阔世界的简单指南]

在谷歌的发布演示问题之一（截至撰写本文时仍然有效）是：“詹姆斯·韦伯太空望远镜有哪些新发现可以讲给我的9岁孩子听？”作为回应，Bard提供了三个要点，其中一个说：“JWST拍摄了我们太阳系外第一颗行星的照片。”

虽然这听起来像是有史以来最大的太空望远镜应该做的事情——而且JWST确实发现了系外行星——但它并没有找到第一颗。根据路透社和NASA的说法，这一荣誉属于欧洲南方天文台的甚大望远镜（VLT），它在2004年发现了一颗。如果这种情况发生在某人向Bard寻求建议时，而不是在一次非常公开的发布会上，就不会有几十位天文学家准备好介入纠正了。

微软则采取了更直接的方法。The Verge发现必应的新FAQ声明“AI可能会犯错”，并且“必应有时会错误地呈现其找到的信息，您可能会看到听起来令人信服但却不完整、不准确或不恰当的回复。”它继续呼吁用户行使自己的判断，并仔细核实AI提供的事实。（它还说你可以问必应：“你从哪里得到这些信息？”以找出它用来生成答案的来源。）

尽管如此，这感觉像是微软的一种推卸责任。是的，人们应该对他们在网上阅读的信息持怀疑态度，但微软也有责任确保其提供给数百万用户的工具不仅仅是编造信息并将其呈现为真实。像必应这样的搜索引擎是人们验证事实的最佳工具之一——它们不应该增加网上的错误信息。

这种责任甚至可能是法律可执行的。欧盟的《数字服务法》将于2024年某个时候生效，其中包含旨在专门防止虚假信息传播的条款。未能遵守新法律可能导致高达公司年营业额6%的罚款。鉴于欧盟近期对美国科技公司的一系列巨额罚款以及现有的规定，即搜索引擎必须删除可被证伪的不准确信息，看起来27个成员国可能会对谷歌或必应上突出显示的AI生成错误信息采取强硬立场。它们已经被迫采取更强硬的立场来处理其他形式的生成性错误信息，如深度伪造和虚假社交媒体账号。

随着这些对话式AI即将广泛且免费可用，我们将很可能看到更多关于其使用是否恰当的讨论——尤其是当它们声称是信息的权威来源时。同时，让我们牢记，对于这类AI来说，生成语法连贯的胡言乱语比撰写一份经过充分事实核查的查询回应要容易得多。