概率图模型及其应用

概率图模型（PGM）是一种用于捕捉随机变量之间复杂关系的统计模型。这种模型通过节点和边来构建内在结构，其中节点代表特定于正在解决的业务案例的属性集合，而边则表示它们之间的统计关联。

为什么选择PGM而不是传统机器学习模型？

PGM与传统机器学习模型的主要区别在于构建模型的网络结构。这种结构包含了关于不同变量如何相互关联的信念（嵌入在条件概率分布（CPD）表中）。可以利用独立性属性，通过直观的图表紧凑地表示高维数据模型，这进一步有助于进行推断和生成业务洞察。

PGM的两种网络类型

在本文中，将主要构建贝叶斯网络，因此熟悉以下两种网络类型非常重要：


                    // 贝叶斯网络
                    // 也称为有向无环图（DAGs），其中边的方向表示一个变量对另一个变量的直接影响。
                    // 在此类网络中，变量之间的概率影响流向是从边的方向指示的。

                    // 马尔可夫网络
                    // 是一个无向图，其中边的存在仅表示两个变量之间的关联，而不是因果关系。

创建和学习网络的三步过程

结构学习：将使用一种称为Hill-Climbing优化的基于分数的结构学习算法来构建网络结构。这个过程通常涉及从一个初始结构开始。在所有可能的候选网络结构空间中，可以执行三种可能的操作，即添加、删除或反转边。从初始结构开始，不断执行这三种操作，直到分数不再提高，算法开始收敛并停止搜索更好的结构。常用的分数是贝叶斯信息准则（BIC）。
参数学习：这是从底层数据模型中学习网络分布的过程。需要指定每个节点的条件分布，给定其父节点，以构建完整的贝叶斯网络。采用参数估计技术来估计计算条件分布所需的未知参数。使用最大似然估计方法来估计概率分布的参数，使得观察到的数据最有可能。在参数空间中最大化似然函数的点称为最大似然估计。
推理：这是PGM的核心应用之一，通过构建的网络模型进行查询，以生成业务洞察。例如，可以查询糖尿病患者患有慢性心脏病（CHD）的概率与无糖尿病史的人相比是多少，或者随着年龄的增长，一个人患有“普遍性高血压”的概率如何变化，或者“心率”的分布随着一个人每天吸烟的数量如何变化。

PGM的应用


                    // 贝叶斯网络构建示例
                    // 此处省略实际代码，仅展示结构

推断1：糖尿病患者患有慢性心脏病（CHD）的概率为33%，而无糖尿病史的人为15%。
推断2：随着年龄的增长，一个人患有“普遍性高血压”的概率增加。
推断3：“心率”的分布随着一个人每天吸烟的数量而变化。

概率图模型及其应用

为什么选择PGM而不是传统机器学习模型？

PGM的两种网络类型

创建和学习网络的三步过程

PGM的应用

Apache Hive中的表类型

混淆矩阵与模型性能评估

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

概率图模型及其应用

为什么选择PGM而不是传统机器学习模型？

PGM的两种网络类型

创建和学习网络的三步过程

PGM的应用

Apache Hive中的表类型

混淆矩阵与模型性能评估

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485