计算机分析如何揭露 J. K. 罗琳的秘密小说

或者,你的四字母组合是如何破坏你匿名撰写色情小说的职业生涯的

《布谷鸟的呼唤》是一本由首次亮相的作家罗伯特·加尔布雷思创作的侦探小说,最近被以一种令人震惊的方式揭开了真相。本周末,英国的《泰晤士报》报道称,《布谷鸟的呼唤》实际上是由哈利·波特的创作者J. K. 罗琳所著。在《泰晤士报》直接询问后,罗琳甚至承认写了这本小说。

《泰晤士报》向罗琳出示的证据中,包括了两位大学教授的分析报告,他们编写了计算机程序来找出 disputed texts 的作者。毕竟,每个作家都有自己的写作习惯。一个明显的习惯是使用地区性词语——比如英式的“boot”和美式的“trunk”——但有些习惯则更为微妙和不自觉。让人感到毛骨悚然,但又很酷的是,一个计算机程序竟然能够识别出这些。

《泰晤士报》最初在收到匿名线报称罗琳可能是这本书的真正作者后,便请程序员对《布谷鸟的呼唤》进行检查。记者亚历克斯·莫斯特罗斯起初并没有告诉这些教授他为什么想让他们将《布谷鸟的呼唤》与其他几本小说进行比较。

那么,哪些写作习惯会暴露作者的身份呢?分析师之一,匹兹堡杜肯大学的帕特里克·朱奥拉,在他的博客上详细介绍了他的程序是如何工作的。完整的文章非常值得一读,但这里是一些重点。

基本上,朱奥拉获取了《布谷鸟的呼唤》的数字副本,以及罗琳和其他三位著名推理小说家的作品数字副本。然后,他进行了一系列分析,告诉他《布谷鸟的呼唤》中的写作习惯最符合哪位作者。每一次分析都考察了书中不同的“习惯”。

  1. 朱奥拉考察了每本书中单词长度的分布。也就是说,他得到了一组数字,比如“这本书中有X%的单词长度正好是Y个字母”。
  2. 朱奥拉考察了每本书中100个最常见的单词。
  3. 他考察了经常一起出现的单词对。
  4. 他考察了字符串中出现的四个字符的组合。字符串中的任何四个字符都可以,包括字母、空格和标点符号。现在,我不知道有哪个作家在写作时会考虑字符字符串,但朱奥拉说,其他研究已经证明,称为四字母组合的四个字符的字符串是作者身份的有力指标。

朱奥拉说,他进行的整体分析无法证明作者身份。一些单独的测试发现,除了罗琳之外的其他作者是最佳匹配。尽管如此,罗琳出现的次数是最一致的。朱奥拉称他的工作“暗示”或“表明”罗琳写了《布谷鸟的呼唤》。而罗琳的供认才是决定性的证据,朱奥拉的分析无疑帮助她下定决心承认。

这种区别很重要,因为语言学家利用朱奥拉等人的工具来确定谁是各种文本的作者,从已故历史学家的著作到现代法庭案件中有争议的文件。在那些情况下,想要获得一个直接、可靠的供认可能会困难得多。

语言日志

 

更多优惠、评测和购买指南

 
Francie Diep 是一位居住在加利福尼亚州圣巴巴拉的科学记者。除了《Popular Science》,她的作品还发表在《Scientific American》、《Smithsonian》及其他刊物上。她对基因、细胞、机器人、档案馆以及互联网上的奇特内容着迷。

© .