在《老友记》上训练的神经网络可以识别讽刺

研究人员表示,他们使用了一个包含各种电视剧片段数据库训练的新算法,能够 75% 的时间内检测出讽刺。
Chandler on 'Friends' is known for his sarcasm.
《老友记》中的钱德勒以其讽刺著称。YouTube/Warner Bros

早在 2019 年,当人工智能还仅限于科幻小说领域,GPT-2 距离发布还有几个月时,一群研究人员向当年夏季举行的计算语言学协会年会提交了一篇论文。这篇题为《走向多模态讽刺检测(一篇显而易见的完美论文)》的论文,提出构建一个包含来自《老友记》和《生活大爆炸》等热门电视剧中的讽刺语音标注示例的数据库。其目的是让这个数据库——被昵称为“多模态讽刺检测数据集”,简称“MUStARD”——能够成为研究对话中讽刺检测的资源。

讽刺的本质意味着仅从文字上看很难识别:讽刺的陈述通常会说一套,但表达另一套意思。这需要从其他更微妙的线索中推导出陈述的真正含义。最初的 MUStARD 论文指出了几种此类线索的例子——“语调变化、[对某个词]的过度强调、拖长的音节,或一副一本正经的脸”——并认为这种“多模态”分析对于正确解析讽刺至关重要。

在随后的五年里,人机自然语言交互已从电影中的情节设定以惊人的速度发展成为日常现象。然而,讽刺仍然难以检测,本周在渥太华举行的美国声学学会和加拿大声学学会联合会议上有两个会话专门讨论了改进讽刺检测的方法。

其中第一个会话,由格罗宁根大学的一个团队发表,介绍了一个基于 2019 年论文所提出方法的神经网络。该网络使用 MUStARD 的数据进行训练,据《卫报》报道,它在数据库中对未标记的讽刺片段的检测准确率达到了 75%。会议网站上发布的研究简报解释了该模型的运作方式:首先从音频数据中提取词语(通过自动语音识别),然后为其分配一个表情符号来表示其潜在情感。接着,该表情符号与语调或更广泛的对话背景等多种模态线索进行映射。作者认为,他们的方法“利用了每种模态的优势……[并]通过提供准确解读讽刺所必需的补充线索来弥补音高感知方面的不足。”

音高感知是研究语音讽刺的最常用方法之一,而本次会议上讨论讽刺检测的另一场演示也主要关注音高感知分析方法。具体来说,它侧重于 F0(基频)的变化,这是给定人声的最低频率。该频率的某些变化常常是英语中讽刺的特征,因此识别这些变化一直是识别讽刺性短语的相对可靠的方法。

密歇根大学团队的演示详细考察了当一个人说出讽刺性评论时 F0 发生的变化(称为“F0 轮廓”)。该团队识别出在许多受试者的轮廓中反复出现的特定声学特征——“波动性”和“空间感”。经过对九名受试者语音的进一步分析,他们发现“波动性和空间感本身就能在某些说话者的真诚和讽刺性轮廓簇之间捕捉到一些差异。”然而,演示文稿提醒说,尽管“任何说话者都会产生具有讽刺或真诚特征的轮廓……但这些轮廓因说话者而异。”

这表明仅依靠对话的任何一个方面来识别讽刺是多么困难。这一点对于人类和计算机来说都同样适用。尽管对这些会议的报道主要集中在将讽刺检测整合到 ChatGPT 等大型语言模型驱动的聊天机器人中的可能性,但它也为实际人类带来了潜在的好处。格罗宁根大学的团队认为,他们的工作可以帮助“有听觉处理挑战的人”——特别是那些“患有影响音高感知障碍或缺乏语境听觉线索”的人——并且更广泛地有助于“推进语音技术应用。”

 

更多优惠、评测和购买指南

 
Tom Hawking Avatar

汤姆·霍金

撰稿人

汤姆·霍金是纽约市的一名作家。他撰写关于文化、政治、科学以及两者之间的一切内容。他的作品曾发表在《纽约时报》、《卫报》、《滚石》等众多出版物上。你可以 订阅他的 Substack。


© .