在数据分析领域,预测分析被广泛用于基于历史数据估计未来事件的概率。预测分析可以大致分为三个类别:描述性(告诉发生了什么)、预测性(告诉最有可能发生什么)、规范性(推荐为了某个结果应该采取的行动)。本文将探讨预测分析的一个组成部分——马尔可夫链。
随机过程是一系列随时间有序排列的随机变量,描述了某些物理过程随时间的演变。例如,集合{X(t), t ∈ T}就是一个随机过程,其中每个t ∈ T,X(t)是一个随机变量。索引't'或称为索引参数可以是时间、距离、长度等,X(t)是过程在't'时刻的状态。T是参数空间。
马尔可夫链是基于随机过程的无记忆性质构建的,即任何过程的未来状态的条件概率分布仅依赖于当前状态。这一性质被数据科学家用来定义预测。马尔可夫链可以是一维随机过程,分为四种类型:离散时间、离散状态空间(例如掷骰子);离散时间、连续状态空间(例如特定一天的降雨量/温度);连续时间、离散状态空间(例如到时间't'的到达次数、出生次数);连续时间、连续状态空间(例如心电图、血压)。
状态空间是随机变量X(t)可能取值的集合,如果是离散的,则包含有限数量的点;否则是连续的。参数空间是索引参数可能取值的集合,可以是离散的或连续的。