人工智能程序经常排除非洲语言。这些研究人员有一个计划来解决这个问题。

超过 2000 种语言起源于非洲,但自然语言处理程序支持的语言却少之又少。
Close-up of hand typing computer coding on laptop screen
非洲语言在 Alexa、Siri 和 ChatGPT 等服务中严重代表性不足。Deposit Photos

全世界有超过 7000 种语言,其中近一半被认为濒临灭绝或已灭绝。与此同时,只有相对极少数的语言得到了像 SiriAlexaChatGPT 这样的自然语言处理 (NLP) 人工智能程序的支持。特别被忽视的是非洲方言的使用者,他们在科技行业中与许多其他边缘化群体一样,长期面临 系统性偏见。为了帮助解决影响数十亿人的不平等问题,一支来自非洲的研究团队正在努力制定一项行动计划,以更好地开发能够支持这些被严重忽视的语言的人工智能。

这些建议的提出,得益于 Masakhane(在祖鲁语中大致意为“我们一起建设”)的成员。该组织是一个致力于推进非洲语言 NLP 研究的草根组织,“为非洲人,由非洲人”创建。正如今天在《Patterns》上发表的一篇新论文中所详述的,该团队对非洲语言使用者——语言学家、作家、编辑、软件工程师和商业领袖进行了调查,以确定在开发非洲 NLP 工具时应考虑的五个主要主题。

[相关:AI 抄袭检测器错误地标记了非英语母语者。]

首先,该团队强调非洲是一个多语社会(Masakhane 估计,世界上超过 2000 种语言起源于非洲大陆),这些语言对文化认同和社会参与至关重要。例如,有超过 2 亿斯瓦希里语的使用者,而约鲁巴语则有 4500 万使用者。

其次,作者们强调,为非洲内容创作提供适当的支持至关重要,这包括开发数字词典、拼写检查器和支持非洲语言的键盘等工具,以扩大使用范围。

他们还提到,语言学家和计算机科学家之间的跨学科合作是更好地设计工具的关键,并表示开发人员应牢记数据收集、整理和使用所带来的道德义务。

Masakhane Foundation 的首席作者、人工智能研究员 Kathleen Siminyu 在周五的一份声明中表示:“对我来说,非洲语言的人工智能工具有限是说不通的。语言技术进步中的包容性和代表性不是事后修补的,而是需要一开始就考虑的问题。”

[相关:研究表明,ChatGPT 的准确性有所下降。]

该团队提出的一些其他建议包括:提供额外的结构性支持来开发内容审核工具,以遏制非洲语言在线虚假信息的传播;以及为涉及非非洲公司使用非洲语言数据而引起的法律案件提供资金。

Siminyu 继续说道:“我希望我们能生活在一个非洲人能够拥有与英语、法语、普通话或其他语言流利者一样好的生活质量、信息获取和机会的世界。” 今后,该团队希望扩大他们的研究,纳入更多参与者,并利用他们的研究来可能帮助保护非洲本土语言。

《Patterns》的科学编辑 Wanying Wang 在同期社论中写道:“[我]们认为这些是能够也必须面对的挑战。” Wang 还希望更多的研究人员能提交他们对非英语 NLP 的探索和进展。

Wang 写道:“这不仅限于突破性的 NLP 技术进步和解决方案,也包括使用这些或类似技术来拓展语言和领域界限的研究论文。”

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .