Meta 分享其内容审核工具源代码 | 流行科学

在线内容审核是一项艰巨的任务（正如埃隆·马斯克目前正在发现的那样）。但 Meta——Facebook、Instagram 和 WhatsApp 背后的公司——希望让其他平台更容易做到这一点。上周，它宣布将开放其 Hasher-Matcher-Actioner (HMA) 工具的源代码并免费提供。此消息传出之际，Meta 即将接任全球互联网反恐论坛 (GIFCT) 运营委员会的主席。

GIFCT 由 Facebook、Microsoft、Twitter 和 YouTube 于 2017 年创立，现已发展成为一个非营利组织，与成员公司、政府和公民社会组织合作，打击互联网上的恐怖主义和暴力极端主义内容。其中的一个方面是维护一个共享的极端主义内容哈希数据库，这样，如果一家公司（例如 Facebook）将某内容标记为与恐怖主义相关，其他公司（例如 YouTube）将能够自动将其删除。

为了使这些数据库能够高效运行（并且避免任何公司存储数 PB 的令人发指的暴力内容），它们不会存储冒犯性内容的完整副本。相反，它们存储一个独特的数字指纹，即哈希（hash）。

哈希的生成方式如下：本质上，将极端视频、恐怖照片、PDF 宣言或其他任何内容的副本通过一个算法，该算法将其转换为一个由数字和字母组成的唯一字符串。你无法使用哈希重新创建内容，但将相同的视频通过算法将始终产生相同的结果。只要所有平台都使用相同的算法来生成哈希，它们就可以使用共享数据库来跟踪恐怖内容。

[相关：反疫苗者使用表情符号来规避 Facebook 的指南]

Meta 的 HMA 工具允许平台自动化对任何图像或视频进行哈希处理、将其与数据库进行匹配并采取行动的过程——例如阻止视频发布，或封锁试图发布该视频的帐户。它不限于恐怖内容，并且可以与 GIFCT 维护的共享数据库，或如 YouTube 的 Content ID 等专有数据库一起使用。

值得指出的是，这一切都在后台一直发生着。一旦 HMA 或任何其他类似的自动化工具启动并运行，用户发布的所有照片和视频都会在上传时进行哈希处理并与相关数据库进行检查。如果某内容随后被版主标记为暴力、冒犯性或以其他方式需要删除，则可以自动删除该内容在平台上已发布的其他实例。这是一个持续的过程，旨在阻止不良内容被查看或传播。

虽然大多数大型平台已经采用某种形式的自动化内容审核，但 Meta 希望其 HMA 工具能够帮助缺乏大型平台资源的小型公司。“许多公司缺乏内部技术能力来查找和审核海量违规内容，”英国前副首相、现任 Meta 全球事务总裁 Nick Clegg 在新闻稿中解释道。参与共享哈希数据库的公司越多，每家公司在删除令人发指的内容方面就做得越好——尤其因为这些内容很少只在一个地方共享。“人们经常会从一个平台转移到另一个平台来分享这些内容。”

Meta 声称去年在安全和安保方面花费了约 50 亿美元，并致力于将打击恐怖内容作为“更广泛方法的一部分，以保护用户免受我们服务中的有害内容侵害”。Clegg 声称，“Facebook 上每 10,000 次内容浏览中，仇恨言论的观看次数是过去的 2 倍，而不到三年前，这一比例为 10-11 次/10,000 次浏览。” 在无法访问 Facebook 内部数据的情况下，我们无法核实这一说法，并且一些报道似乎表明，该公司自身的系统远非完美。然而，HMA 和监督委员会等举措至少给人一种印象，即 Meta 认真对待以公平一致的方式解决内容审核问题——不像 Twitter 那样。