训练人工智能系统与训练狗的基本原理相同

一位人工智能研究员解释了教导机器的关键方法。
Close-up portrait of mixed breed dog panting against yellow background
什么是强化学习?图片:Ian_Scaramanga / Getty Images

本文最初发表于 The Conversation.

理解智能和创造智能机器是我们这个时代的 宏伟科学挑战。 从经验中学习 的能力是机器和生物智能的基石。

在 1948 年一篇极具先见之明的报告 中,现代计算机科学之父 艾伦·图灵 提出了构建能够展现智能行为的机器。他还讨论了这些机器“通过奖励和惩罚进行‘教育’”的问题。

图灵的想法最终导致了 强化学习 的发展,这是 人工智能 的一个分支。强化学习通过训练智能体最大化它们与环境交互时的奖励来设计智能体。

作为一名 机器学习研究员,我认为强化学习的先驱 Andrew Barto 和 Richard Sutton 荣获 2024 年 ACM 图灵奖 是恰如其分的。

什么是强化学习?

动物训练师知道,可以通过奖励期望行为来影响动物的行为。当狗完成一项技巧时,训犬师会给它零食。这强化了该行为,狗下次更有可能正确地完成该技巧。强化学习 借鉴了动物心理学 的这一见解。

但强化学习是关于训练计算体,而不是动物。体可以是软件体,例如国际象棋程序。但体也可以是实体,例如学习做家务的机器人。同样,体的环境可以是虚拟的,如棋盘或电子游戏中的设计世界。但它也可以是一个机器人工作的房子。

就像动物一样,体可以感知其环境的某些方面并采取行动。下棋的体可以访问棋盘配置并做出移动。机器人可以用摄像头和麦克风感知周围环境。它可以使用电机在物理世界中移动。

体也有其人类设计者为其编程的目标。下棋体的目标是赢得比赛。机器人的目标可能是协助其人类主人完成家务。

人工智能中的强化学习问题是如何设计体,使其通过感知和与环境交互来实现其目标。强化学习提出了一个大胆的声明:所有目标都可以通过设计一个称为奖励的数值信号来实现,并让体最大化它接收到的奖励总和。

来自人类反馈的强化学习是确保人工智能与人类目标和价值观保持一致的关键。

研究人员不知道这个声明是否真的正确,因为可能的目标种类繁多。因此,它通常被称为 奖励假设

有时很容易为目标选择一个对应的奖励信号。对于下棋体,获胜的奖励可以是 +1,平局是 0,失败是 -1。为有用的家政机器人助手设计奖励信号的清晰度较低。尽管如此,强化学习研究人员能够设计出良好奖励信号的应用列表正在不断增长。

强化学习的一个重大成功是在围棋游戏中。研究人员认为,围棋对机器来说比国际象棋更难掌握。DeepMind 公司(现为 Google DeepMind)使用强化学习创建了 AlphaGo。AlphaGo 在 2016 年的一场 五局比赛 中击败了围棋顶尖选手李世石。

一个更近期的例子是使用强化学习来使 ChatGPT 等聊天机器人更有用。强化学习也被用于提高聊天机器人的推理能力。

强化学习的起源

然而,在 20 世纪 80 年代,这些成功都无法预见。那时 Barto 和他当时的博士生 Sutton 将强化学习作为一个通用的问题解决框架提出。他们的灵感不仅来自动物心理学,还来自 控制理论 (利用反馈影响系统行为)和 优化 (一门研究如何在多种可用选择中选择最佳选项的数学分支)。他们为研究界提供了经受时间考验的数学基础。他们还创建了如今已成为该领域标准工具的算法。

对于一个领域来说,先驱者花时间撰写教科书是一项难得的优势。像 Linus Pauling 的《 化学键的性质》和 Donald E. Knuth 的《 计算机程序设计艺术》这样的杰出范例之所以令人难忘,是因为它们屈指可数。Sutton 和 Barto 的《 强化学习:导论》于 1998 年首次出版。 第二版 于 2018 年出版。他们的书影响了一代研究人员,被引用次数超过 75,000 次。

强化学习对神经科学也产生了意想不到的影响。神经递质 多巴胺 在人类和动物的奖励驱动行为中起着关键作用。研究人员已使用在强化学习中开发的特定算法来解释人们和动物多巴胺系统的实验结果。

Barto 和 Sutton 的开创性工作、远见和倡导帮助强化学习不断发展。他们的工作激发了大量的研究,对现实世界的应用产生了影响,并吸引了科技公司的大量投资。我相信,强化学习研究人员将继续站在巨人的肩膀上,看得更远。

 

更多优惠、评测和购买指南

 
© .