概率图模型及其应用

概率图模型(PGM)是一种用于捕捉随机变量之间复杂关系的统计模型。这种模型通过节点和边来构建内在结构,其中节点代表特定于正在解决的业务案例的属性集合,而边则表示它们之间的统计关联。

为什么选择PGM而不是传统机器学习模型?

PGM与传统机器学习模型的主要区别在于构建模型的网络结构。这种结构包含了关于不同变量如何相互关联的信念(嵌入在条件概率分布(CPD)表中)。可以利用独立性属性,通过直观的图表紧凑地表示高维数据模型,这进一步有助于进行推断和生成业务洞察。

PGM的两种网络类型

在本文中,将主要构建贝叶斯网络,因此熟悉以下两种网络类型非常重要:

// 贝叶斯网络 // 也称为有向无环图(DAGs),其中边的方向表示一个变量对另一个变量的直接影响。 // 在此类网络中,变量之间的概率影响流向是从边的方向指示的。 // 马尔可夫网络 // 是一个无向图,其中边的存在仅表示两个变量之间的关联,而不是因果关系。

创建和学习网络的三步过程

  1. 结构学习:将使用一种称为Hill-Climbing优化的基于分数的结构学习算法来构建网络结构。这个过程通常涉及从一个初始结构开始。在所有可能的候选网络结构空间中,可以执行三种可能的操作,即添加、删除或反转边。从初始结构开始,不断执行这三种操作,直到分数不再提高,算法开始收敛并停止搜索更好的结构。常用的分数是贝叶斯信息准则(BIC)。
  2. 参数学习:这是从底层数据模型中学习网络分布的过程。需要指定每个节点的条件分布,给定其父节点,以构建完整的贝叶斯网络。采用参数估计技术来估计计算条件分布所需的未知参数。使用最大似然估计方法来估计概率分布的参数,使得观察到的数据最有可能。在参数空间中最大化似然函数的点称为最大似然估计。
  3. 推理:这是PGM的核心应用之一,通过构建的网络模型进行查询,以生成业务洞察。例如,可以查询糖尿病患者患有慢性心脏病(CHD)的概率与无糖尿病史的人相比是多少,或者随着年龄的增长,一个人患有“普遍性高血压”的概率如何变化,或者“心率”的分布随着一个人每天吸烟的数量如何变化。

PGM的应用

// 贝叶斯网络构建示例 // 此处省略实际代码,仅展示结构
  • 推断1:糖尿病患者患有慢性心脏病(CHD)的概率为33%,而无糖尿病史的人为15%。
  • 推断2:随着年龄的增长,一个人患有“普遍性高血压”的概率增加。
  • 推断3:“心率”的分布随着一个人每天吸烟的数量而变化。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485