近年来,强化学习算法一直在工业应用的边缘徘徊。2019年,它们能否最终打开这扇大门?阻碍强化学习发展的最大的障碍是什么?能否预测强化学习将把带向何方?
在DataHack Radio的第15期节目中,有幸邀请到了Xander Steenbrugge,他带领深入探讨了强化学习这个广泛而复杂的世界。是的,上述问题在这一集中得到了专家级的处理。
Xander擅长将最复杂的话题分解成易于理解的概念,这是一个非常宝贵的资产。是因为他在YouTube上的流行频道‘Arxiv Insights’而认识Xander的,当在2018年DataHack峰会上看到他的现场演讲时,非常欣赏他的演讲风格。他在这一集中也充分展示了解释挑战性主题的能力。
本文旨在突出这一集中讨论的关键点,包括Xander对强化学习及相关主题的看法。鼓励收听完整的节目,Xander在其中更详细地阐述了他的RL理论和想法。祝听得愉快!
可以在以下任何平台上订阅DataHack Radio,以便在每次发布新剧集时收到通知,或者浏览档案库:
Xander在比利时根特大学攻读土木工程学位。他的整个教育背景都集中在电子领域,比如制造晶体管、微电路等。他学习编程的目的是使从想法到执行阶段的过程比纯粹使用电子设备时更快。
不出所料,Xander的硕士论文(2015年完成)是关于脑机接口的,这些接口可以进行脑波(EEG)分类。可能在YouTube上看到过这个系统的一个应用——当患者戴上这个机制的头戴设备时,他/她可以用他/她的思想移动连接的电脑屏幕上的光标。
由于EEG信号数据有很多噪声,涉及了大量的预处理工作。一旦数据被清理,Xander在将数据输入机器学习分类器之前进行了手动特征提取。当Xander在项目上工作时,神经网络还处于相对初级阶段。如果现在给他同样的数据,他很想直接将CNN(卷积神经网络)应用于EEG信号。非常有趣的东西!
作为机器学习顾问的Xander,遇到了DeepMind在2015年发表的一篇论文,他们介绍了DQN算法。可以用同一个算法玩任何类型的游戏?这个突破真的引起了Xander的兴趣,使他开始探索这个复杂而美妙的强化学习领域。以下是他对这项工作的简单看法:
“这并不像看起来那么困难。它是监督学习,但有一些调整。”——Xander
问,真的那么简单吗?以下是Xander通过将这两种学习类型进行对比来解释他的思维过程的总结:
强化学习和监督学习的区别在于,对于RL,有一个能够在环境中移动并采取行动的代理(比如向特定方向移动)。这个代理可以是算法,或者是人,或者是物体。它采取的行动会影响来自环境的输入。只有将代理经过几次迭代后,才能知道它离实现最终目标有多远。当涉及到监督学习时,输入和输出从一开始就非常明确。
“强化学习系统可以学会做人类不知道如何做的事情。”——Xander
众所周知,强化学习的进步比其他领域慢。Xander之前提到的从想法到执行阶段在RL中需要很多时间。在学术界,这些代理在模拟环境中接受训练(比如ATARI游戏环境),因为这些算法非常“样本效率低”。换句话说,需要向这些代理展示大量的例子,它们才能学到一些实质性的东西。
当进入现实世界环境时,这些数据往往更加稀疏(许多数据科学家会对此产生共鸣!)。此外,需要算法根据不同的要求泛化到不同的设置。这两个主要挑战阻碍了强化学习渗透到商业产品和服务中。
话虽如此,Xander提到了一个非常酷的用例,其中强化学习已经成功应用——机器人农业。收听播客以了解这项技术的工作细节。
“正处于一场非常大的革命的开始,可以从硬编码的机器人转变为智能学习机器人。”——Xander
播客中的另一个有趣的信息——大多数研究仍然集中在单一代理强化学习(与多代理RL相比),因为那里还有许多问题需要解决。
以下是面临的当前强化学习状态的两个主要障碍:
有很多框架和工具包存在于监督学习中。像预训练模型这样的事物让任何想要了解特定技术如何工作的人都更容易。但在当前情况下,为强化学习拥有类似的东西几乎是不可能的。能想象RL背景下的迁移学习吗?目前每个人都在使用自己的自定义库和工具进行研究。
正如Xander上述提到的,大多数研究都是在模拟环境中进行的。在实际环境中用更少的数据训练代理的问题仍然需要解决。
强化学习是一个涵盖多个主题和学科的庞大领域。目前,没有一个单一的平台可以为提供直接进入这个领域的途径。根据Xander的说法,首先从零开始理解监督学习是一个好主意,因为强化学习建立在那个基础之上。所以在跳入RL概念之前,先熟悉一下图像分类器是如何工作的。