强化学习是一种学习范式,其中学习者通过与环境的交互,利用自身行为和行为的反馈(奖励)来学习如何行为。在这个过程中,学习者,通常称为代理,通过尝试和探索不同的行为来发现哪些行为能够带来最大的奖励。
强化学习的核心区别在于其交互方式。监督学习通过一个标记好的训练数据集直接告诉用户/代理为了最大化奖励应该执行什么行为。而强化学习则允许代理直接利用从环境中获得的奖励(正奖励和负奖励)来选择其行为。此外,它也不同于无监督学习,因为无监督学习主要是在未标记的数据集中寻找隐藏的结构。
强化学习问题的基本元素包括环境、状态、奖励、策略和价值。环境是代理与之交互的外部世界;状态是代理的当前情况;奖励是环境对代理行为的数值反馈信号;策略是将代理的状态映射到行为的方法,用于在给定状态下选择行为;价值是代理在给定状态下采取行动所能获得的未来奖励(延迟奖励)。
马尔可夫决策过程是一个数学框架,用于描述强化学习中的环境。在MDP中,代理和环境在每个离散的时间步进行交互,例如t = 0, 1, 2, 3…。在每个时间步,代理会获得关于环境状态St的信息。基于t时刻的环境状态,代理选择一个行为At。在下一个时刻,代理还会收到一个数值奖励信号Rt+1。这样就形成了一个序列,如S0, A0, R1, S1, A1, R2…。随机变量Rt和St具有明确定义的离散概率分布,这些概率分布仅依赖于前一个状态和行为,这是马尔可夫性质的体现。
假设S、A和R分别是状态、行为和奖励的集合。那么St、Rt和At取值s'、r和a的概率,以前一个状态s为条件,由函数p控制过程的动态。
让讨论一个简单的强化学习可以用于实现加热过程控制策略的例子。这个想法是控制房间内的温度在指定的温度限制内。房间内的温度受到外部因素如室外温度、内部产生的热量等的影响。
// 此处应有块图的代码或描述,由于无法展示图形,故省略