贝叶斯决策理论中的判别函数与正态密度

分类器、判别函数和决策面

模式分类器可以用多种方式表示,其中最常用的是使用一组判别函数g_i(x),其中i=1, ..., c。分类器的决策过程是将特征向量x分配给类别w_i,如果遵循特定的决策规则,例如g_i(x) > g_j(x)对于j!=i。因此,这个分类器可以被视为一个网络,它计算c个判别函数并选择具有最高判别值的状态。

通常,g_i(x) = -R(a_i | x),对于最小条件风险,得到最大的判别函数。通过取g_i(x) = P(w_i | x),最大判别函数对应于最大后验概率。因此,判别函数的选择不是唯一的。可以通过乘以相同的正常数或通过相同的常数进行平移来调整函数,而不影响决策。这些观察最终导致了显著的计算和分析简化。判别函数修改的示例,调整输出决策是:

g_i(x) = P(ω_i | x) = p(x | ω_i)P(ω_i) / sum(p(x | ω_j)P(ω_j)) g_i(x) = p(x | ω_i)P(ω_i) g_i(x) = ln p(x | ω_i) + ln P(ω_i)

决策规则不会改变。任何决策规则的目标都是将特征空间划分为c个决策区域,这些区域是R_1, R_2, R_3, ..., R_c。如前所述,如果g_i(x) > g_j(x)对于所有j != i,则xR_i中,决策规则导致将特征x分配给自然状态w_i。这些区域由决策边界分隔。

两分类情况

总是可以构建一个二分器(一个特殊名称,用于将分类分为两类的分类器)以简化问题。使用决策规则将x分配给w_1如果g_1 > g_2,但可以定义一个单一的判别函数g(x) ≡ g_1(x) - g_2(x),并且决策规则决定w_1如果g(x) > 0;否则它决定w_2

因此,二分器可以被视为一个系统,它计算一个单一的判别函数g(x)并根据输出的符号对x进行分类。上述方程可以进一步简化为:

g(x) = P(ω_1 | x) - P(ω_2 | x) g(x) = ln(p(x | ω_1) / p(x | ω_2)) + ln(P(w_1) / P(w_2))

正态密度

到目前为止,已经很清楚贝叶斯分类器是由类条件密度p(x | w_i)和先验决定的。最吸引人的密度函数,已经研究过的,莫过于多变量正态密度。

连续单变量正态密度p(x)可以表示为,特征空间上x的期望值或平均值。方差由下式给出:

μ ≡ E[x] = ∫ xp(x) dx (from – ∞ to ∞) σ^2 ≡ E[(x – μ)^2] = ∫ (x – μ)^2 p(x) dx (from – ∞ to ∞)

这个密度完全由这两个参数控制:它的均值和方差。也写p(x) = N(μ, σ^2),这被读作x以均值μ和方差σ^2正态分布。任何分布的熵由下式给出:

H(p(x)) = ∫ p(x) ln p(x) dx (from – ∞ to ∞)

以纳特为单位,但如果使用log2,则单位是比特。任何分布的熵是一个非负实体,它给出了从分布中随机选择的实例值的基本不确定性的概念。事实上,正态分布具有所有具有给定均值和方差的分布中的最大熵。

中心极限定理指出,大量小的随机独立干扰的聚合效应最终将导致高斯分布。许多现实生活的模式——从手写字符到语音声音——可以被视为一些理想或原型模式被大量随机过程破坏。

d维中的多变量正态分布由下式给出:

p(x) = (1/(2π)^(d/2) |Σ|^(1/2))exp[ -1/2(x – μ)^t Σ^(-1)(x – μ) ]

其中,xd分量列向量,μd分量均值向量,Σd乘以d协方差矩阵,|Σ|Σ^(-1)分别是行列式和逆矩阵,(x – μ)^t(x – μ)的转置。

一些基本的先决条件是内积、均值和协方差矩阵。如果σ_ij = 0,则x_ix_j在统计上是独立的。

今天的讨论到此结束!在下一篇文章中,将讨论在不同条件下正态密度的判别函数的计算,并尝试解释所有这些函数,并看看所有这些情况在贝叶斯决策理论的实际用例中的用途。

讨论问题

确定朴素贝叶斯分类器的最优决策边界,其中w = {w_1, w_2}p(x | w_1) = N(1, 1.5)p(x | w_2) = N(2, 2.5)。先验概率给定为P(w_1) = 1/7P(w_2) = 6/7,损失矩阵给定为[ [4, 3], [1, 2] ]

注:这里N(x, y)表示正态密度。

感谢阅读!如果喜欢这篇文章并想了解更多,请访问其他关于数据科学机器学习的文章,请点击。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485