Meta 尝试使用新的、更“包容”的 AI 训练数据集

专家表示,“Casual Conversations v2”有所改进,但其来源和劳工问题仍有待商榷。
Meta logo on smartphone resting atop glowing keyboard
Meta 拒绝透露其为最新数据集的参与者支付了多少费用。 Deposit Photos

随着 OpenAI 的 ChatGPT 和 Google 的 Bard 等产品的问世,科技行业的领导者们正 持续 推动 其(有时备受争议)人工智能系统以及集成 AI 的产品面向消费者。 尽管如此,许多隐私倡导者和技术专家 仍然担忧 用于训练此类程序的庞大数据集,尤其是在数据同意和用户补偿、信息 准确性 以及算法强制执行的种族和社会政治偏见等方面。 

Meta 希望通过周四发布的 Casual Conversations v2 来缓解其中一些担忧。这是其 2021 年 AI 音视频训练数据集的更新版本。该公司表示,该数据集遵循公开的 11 月份的文献综述,能够对来自不同地理、文化、种族和生理特征的人类受试者进行更细致的分析。

[相关:不,AI聊天机器人(仍然)没有意识。]

Meta 表示 v2 是“一个更能衡量公平性的包容性数据集”,它源于在七个国家录制的 26,467 个视频独白,由来自巴西、印度、印度尼西亚、墨西哥、越南、菲律宾和美国的 5,567 名付费参与者提供,他们还提供了年龄、性别和外貌等可自我识别的属性。尽管“Casual Conversations”的初始版本包含超过 45,000 个视频,但这些视频仅来自美国 3,000 多名居民,且他们提供的度量标准较少。

解决 AI 中的算法偏见是 行业 的一个关键障碍,该行业长期以来 充斥 着提供 种族歧视性别歧视其他不准确的响应 的 AI 产品。 其中很大一部分原因在于 算法的创建、培养和提供给开发人员的方式。

然而,尽管 Meta 将 Casual Conversations v2 吹捧为一项重大进展,但专家们仍持谨慎乐观态度,并敦促对硅谷 看似盲目 冲入 AI 生态系统的行为进行持续审查。

西北大学计算机科学教授、该校 机器智能安全促进中心 主任 Kristian Hammond 在给《PopSci》的电子邮件中写道:“这是一个几乎任何东西都能带来改进的领域。” Hammond 认为,Meta 更新的数据集是该公司“坚实的一步”,尤其考虑到 过去的隐私争议,并且认为其对用户同意和研究参与者劳工报酬的重视尤为重要。

“但改进不等于完全解决。只是迈出了一步,”他警告说。

对 Hammond 来说,一个主要问题仍然是研究人员究竟是如何招募参与者来制作 Casual Conversations v2 的。他写道:“性别和种族多样性固然好,但你还必须考虑收入和社会地位以及更细微的种族特征方面的影响。”他还补充道,“任何自我选择的人群都可能带来偏见。”

[相关:FTC 密切关注 AI 诈骗者。]

当被问及参与者是如何被选中的时,Meta AI 传播团队的 Nisha Deo 通过电子邮件告诉《PopSci》:“我可以分享的是,我们雇佣了外部供应商,并根据我们的要求招募参与者。”她还表示,报酬率是由这些供应商“考虑当地数据收集的市场价值”来确定的。

当被要求提供具体的报酬数字时,Meta 表示“无法比我们已经分享的提供更多信息”。

然而,Deo 还补充说,Meta 在数据培养的每一步都刻意纳入了“负责任的机制”,包括与香港科技大学的学术伙伴合作,对现有数据集方法论进行了全面的文献综述,以及为标注员制定了全面的指导方针。她继续说道:“负责任的 AI 在构建过程中考虑了道德因素和民权,并将其开源作为一项资源,以增加 AI 的包容性。”

对于 Hammond 这样的行业观察人士来说,Casual Conversations v2 等改进措施是受欢迎的,但仍有大量工作要做,尤其是当世界最大的科技公司似乎正在进行一场 AI 军备竞赛时。“每个人都应该明白,这并不是一个完整的解决方案。只是一系列初步的步骤,”他写道。“我们必须确保,我们不会过于关注这一非常显眼的步骤……而停止敦促组织确保他们没有在未经同意的情况下收集数据。”

 

更多优惠、评测和购买指南

 
Andrew Paul Avatar

Andrew Paul

特约撰稿人

Andrew Paul 是 Popular Science 的特约撰稿人。


© .