

本周,Meta 发布了一款新的人工智能模型,名为 Sphere,旨在自动验证维基百科的引用。Sphere 的知识库来自 1.34 亿个网页。
Meta 表示,他们并未就此项目与 Wikimedia(维基百科所有者非营利组织)合作,该项目仍处于研究阶段,并未用于在维基百科上进行实时更新。然而,Wikimedia 最近宣布 正在其内容翻译工具中使用 Meta 的技术。
Meta 在一篇 博客文章 中表示,Sphere 是一款执行知识密集型自然语言处理的人工智能模型,这与您手机上的虚拟助手在您提问“谁赢得了第一个诺贝尔物理学奖?”时执行的任务相同。然后,这些模型将深入一个存储库以找到匹配的答案。
在 Sphere 的案例中,它使用的是来自“非结构化”开放网络的信息,而不是搜索引擎。“由于 Sphere 可以访问比当今标准模型多得多的公共信息,因此它可能提供它们无法提供的有用信息,”Meta 研究人员在 一篇博客 文章中写道。此外,Meta 的系统使用 自然语言理解 来“估算一个声明可以从某个来源推断出来的可能性”。这项技术将句子或短语分解为数学表示,然后将这些表示集彼此比较。
描述 Sphere 的预印本可以在 arXiv 上找到,其软件本身已在 GitHub 上开源。Meta 还创建了一个名为 KILT 的基准测试,将用于评估 Sphere 和其他类似模型在事实核查、问答对话和插入相关链接等广泛任务上的表现。
到目前为止,这项能力仅用于扫描和检查维基百科的引用。“它会引起人们对可疑引用的注意,使人类编辑者能够评估最可能存在缺陷的案例,而无需筛选数千个引用正确的陈述,”Meta 解释道。“如果一个引用似乎不相关,我们的模型将建议一个更适用的来源,甚至指出支持该声明的具体段落。”
[相关:“采纳错别字”以及其他编辑维基百科的方法]
最终,理解维基百科条目中的文本段落与其引用的链接之间的关系,也将提高模型分析现实世界知识的能力,因为引用编辑需要对人类语言理解和推理有牢固的掌握。
Meta 表示:“这些模型是潜在编辑器的第一批组成部分,可以帮助实时验证文档。除了提出引用外,该系统还将建议自动完成文本——由网上找到的相关文档提供信息——并提供校对修正。”“理想情况下,模型将能够理解多种语言,并能处理包括视频、图像和数据表在内的多种媒体类型。”