在人工智能领域,强化学习(Reinforcement Learning, RL)是一种让机器通过与环境的交互来学习如何行动的方法。这种学习方式类似于动物通过奖励和惩罚来学习行为模式。在本文中,将探讨强化学习的基本概念,并比较几个主要的强化学习平台,这些平台为人工智能和机器学习的研究提供了实验场。
强化学习可以类比为训练宠物。当使用响片或哨子来告诉宠物即将得到奖励时,这就是在“强化”宠物去实践好的行为。按下“响片”,然后给予奖励。随着时间的推移,宠物习惯了这种声音,并在每次听到点击声时做出反应。这个例子解释了强化学习的外观。在人工代理中,有一个反馈循环来强化代理。当执行的动作正确时给予奖励,错误时则进行惩罚。基本上,拥有的是:一个由代理维护的内部状态,用于了解环境;一个奖励函数,用于训练代理如何行动;一个代理必须面对的环境;一个代理在环境中执行的动作;以及最后但同样重要的是,执行所有行动的代理。
许多人可能会认为机器学习中只有两种问题——监督学习和无监督学习。然而,机器学习的世界远不止这两种问题。强化学习就是这样一类问题。让看看一些强化学习的实际应用。通常,知道代理的起始状态和结束状态,但到达结束状态可能有多种路径——强化学习就适用于这些场景。这意味着无人驾驶汽车、自动导航吸尘器、电梯调度都是强化学习的应用。
在深入探讨平台之前,先来理解一下强化学习环境。强化学习环境是代理可以观察和行动的环境。代理的视野更广,但代理的任务是执行对环境的行动,以帮助它最大化奖励。根据Murphy(1998年)的《强化学习的简要介绍》,环境被建模为具有输入(来自代理的动作)和输出(发送给代理的观察和奖励)的随机有限状态机。
以下是一些主要的强化学习平台,它们为智能代理的研究提供了丰富的环境和工具。
DeepMind Lab是由Google DeepMind开发的一个完全3D的游戏式平台,专为基于代理的人工智能研究而设计。它基于开源引擎ioquake3,经过修改,成为一个灵活的接口,用于与人工智能系统集成。
OpenAI Gym是一个用于创建、评估和基准测试游戏环境中的人工代理的平台。Gym平台包括多个类别的环境,以及社区提供的样本解决方案。
Universe是一个软件平台,用于测量和训练人工智能在世界上所有游戏、网站和其他应用程序中的通用智能。