模式分类器可以用多种方式表示,其中最常用的是使用一组判别函数g_i(x)
,其中i=1, ..., c
。分类器的决策过程是将特征向量x
分配给类别w_i
,如果遵循特定的决策规则,例如g_i(x) > g_j(x)
对于j!=i
。因此,这个分类器可以被视为一个网络,它计算c
个判别函数并选择具有最高判别值的状态。
通常,g_i(x) = -R(a_i | x)
,对于最小条件风险,得到最大的判别函数。通过取g_i(x) = P(w_i | x)
,最大判别函数对应于最大后验概率。因此,判别函数的选择不是唯一的。可以通过乘以相同的正常数或通过相同的常数进行平移来调整函数,而不影响决策。这些观察最终导致了显著的计算和分析简化。判别函数修改的示例,调整输出决策是:
g_i(x) = P(ω_i | x) = p(x | ω_i)P(ω_i) / sum(p(x | ω_j)P(ω_j))
g_i(x) = p(x | ω_i)P(ω_i)
g_i(x) = ln p(x | ω_i) + ln P(ω_i)
决策规则不会改变。任何决策规则的目标都是将特征空间划分为c
个决策区域,这些区域是R_1, R_2, R_3, ..., R_c
。如前所述,如果g_i(x) > g_j(x)
对于所有j != i
,则x
在R_i
中,决策规则导致将特征x
分配给自然状态w_i
。这些区域由决策边界分隔。
总是可以构建一个二分器(一个特殊名称,用于将分类分为两类的分类器)以简化问题。使用决策规则将x
分配给w_1
如果g_1 > g_2
,但可以定义一个单一的判别函数g(x) ≡ g_1(x) - g_2(x)
,并且决策规则决定w_1
如果g(x) > 0
;否则它决定w_2
。
因此,二分器可以被视为一个系统,它计算一个单一的判别函数g(x)
并根据输出的符号对x
进行分类。上述方程可以进一步简化为:
g(x) = P(ω_1 | x) - P(ω_2 | x)
g(x) = ln(p(x | ω_1) / p(x | ω_2)) + ln(P(w_1) / P(w_2))
到目前为止,已经很清楚贝叶斯分类器是由类条件密度p(x | w_i)
和先验决定的。最吸引人的密度函数,已经研究过的,莫过于多变量正态密度。
连续单变量正态密度p(x)
可以表示为,特征空间上x
的期望值或平均值。方差由下式给出:
μ ≡ E[x] = ∫ xp(x) dx (from – ∞ to ∞)
σ^2 ≡ E[(x – μ)^2] = ∫ (x – μ)^2 p(x) dx (from – ∞ to ∞)
这个密度完全由这两个参数控制:它的均值和方差。也写p(x) = N(μ, σ^2)
,这被读作x
以均值μ
和方差σ^2
正态分布。任何分布的熵由下式给出:
H(p(x)) = ∫ p(x) ln p(x) dx (from – ∞ to ∞)
以纳特为单位,但如果使用log2,则单位是比特。任何分布的熵是一个非负实体,它给出了从分布中随机选择的实例值的基本不确定性的概念。事实上,正态分布具有所有具有给定均值和方差的分布中的最大熵。
中心极限定理指出,大量小的随机独立干扰的聚合效应最终将导致高斯分布。许多现实生活的模式——从手写字符到语音声音——可以被视为一些理想或原型模式被大量随机过程破坏。
在d
维中的多变量正态分布由下式给出:
p(x) = (1/(2π)^(d/2) |Σ|^(1/2))exp[ -1/2(x – μ)^t Σ^(-1)(x – μ) ]
其中,x
是d
分量列向量,μ
是d
分量均值向量,Σ
是d
乘以d
协方差矩阵,|Σ|
和Σ^(-1)
分别是行列式和逆矩阵,(x – μ)^t
是(x – μ)
的转置。
一些基本的先决条件是内积、均值和协方差矩阵。如果σ_ij = 0
,则x_i
和x_j
在统计上是独立的。
今天的讨论到此结束!在下一篇文章中,将讨论在不同条件下正态密度的判别函数的计算,并尝试解释所有这些函数,并看看所有这些情况在贝叶斯决策理论的实际用例中的用途。
确定朴素贝叶斯分类器的最优决策边界,其中w = {w_1, w_2}
,p(x | w_1) = N(1, 1.5)
和p(x | w_2) = N(2, 2.5)
。先验概率给定为P(w_1) = 1/7
和P(w_2) = 6/7
,损失矩阵给定为[ [4, 3], [1, 2] ]
。
注:这里N(x, y)
表示正态密度。