

人工智能研究人员成功创建了一个机器学习模型,该模型能够使用一名佩戴头戴式摄像头的幼儿捕获的视频学习词汇。本周发表在《科学》杂志上的研究结果,可能为我们了解儿童学习语言的方式带来新的启示,并可能为研究人员构建更像人类学习方式的未来机器学习模型提供信息。
之前的研究估计,儿童通常在 6 到 9 个月大的时候开始学习说第一批词语。到两岁生日时,普通孩子的词汇量已达到约 300 个。但儿童如何将意义与词语联系起来的实际机制仍然不清楚,也是科学争论的焦点。纽约大学数据科学中心的研究人员试图通过创建一个试图以儿童相同方式学习的人工智能模型来进一步探索这个模糊的领域。
为了训练模型,研究人员使用了从一名名叫 Sam 的孩子佩戴的轻便头戴式摄像头上提取的 60 多个小时的视频和音频录音。这个幼儿从六个月大开始,一直到两岁生日后,断断续续地佩戴着摄像头。在这 19 个月里,摄像头收集了超过 600,000 帧视频,这些视频与附近人发出的超过 37,500 条转录的语音相匹配。头戴式摄像头记录的背景杂音和视频帧,让我们得以一窥孩子成长过程中饮食、玩耍以及与周围世界互动的情景。

研究人员借助 Sam 的眼睛和耳朵,创建了一个神经网络模型,试图理解 Sam 所看到和听到的内容。该模型包含一个分析摄像头单帧的模块,以及一个专注于直接对 Sam 说的转录语音的模块。它是自监督的,这意味着它不使用外部数据标注来识别物体。就像孩子一样,该模型通过将词语与同时出现的特定物体和视觉信息关联起来进行学习。

论文合著者、纽约大学数据科学中心教授 Brenden Lake 在一份声明中说:“通过使用人工智能模型来研究儿童面临的真实语言学习问题,我们可以解决关于儿童学习词汇需要哪些要素的经典争论——他们是否需要语言特定的偏见、内在知识,还是仅仅需要联想学习来起步。”“似乎我们仅凭学习就能获得比普遍认为的更多的东西。”
研究人员以科学家评估儿童的方式测试了该模型。研究人员向模型展示了来自训练集中的四张图片,并要求它选择与给定词语(如“球”、“婴儿床”或“树”)匹配的图片。模型的准确率为 61.6%。这个由婴儿摄像头训练的模型,其准确率甚至接近于另外两个使用更多语言输入训练的人工智能模型的准确率。更令人印象深刻的是,该模型能够正确识别出 Sam 的头戴式摄像头数据集中未包含的一些图像,这表明它能够从训练数据中学习并进行更广泛的概括。

Lake 说:“这些发现表明,词语学习的这一方面可以从儿童在学习语言时接收到的自然数据和相对通用的学习机制(如神经网络中的机制)中实现。”
换句话说,人工智能模型仅凭头戴式摄像头的数据就能持续识别物体,这表明代表性学习,或者简单地将视觉信息与同时出现的词语联系起来,似乎足以让儿童学习和获得词汇。
研究结果为训练人工智能提供了新的方法
展望未来,纽约大学研究人员的发现对于那些有兴趣创建类似人类学习方式的人工智能模型的未来人工智能开发者来说,将可能非常宝贵。人工智能行业和计算机科学家长期以来一直以人类思维和神经通路为灵感来构建人工智能系统。
最近,像OpenAI 的 GPT 模型或谷歌的 Bard 这样的大型语言模型,在经过大量的训练后,能够写出不错的文章、生成代码,偶尔也会出错,这是因为模型会注入来自海量数据集的数万亿参数数据。然而,纽约大学的研究结果表明,可能存在另一种词语习得的方法。与其依赖于可能侵犯版权或带有偏见的大量输入,不如创建一个模仿人类在爬行和摸索世界时学习方式的人工智能模型,这可能为识别语言提供另一条途径。
Lake 说:“令我惊讶的是,今天的 AI 系统在接触到孩子在学习语言时实际接收到的相当少量的同类数据时,就能学会这么多东西。”