模式分类器可以用多种方式表示,其中最常用的是使用一组判别函数g_i(x),其中i=1, ..., c。分类器的决策过程是将特征向量x分配给类别w_i,如果遵循特定的决策规则,例如g_i(x) > g_j(x)对于j!=i。因此,这个分类器可以被视为一个网络,它计算c个判别函数并选择具有最高判别值的状态。
通常,g_i(x) = -R(a_i | x),对于最小条件风险,得到最大的判别函数。通过取g_i(x) = P(w_i | x),最大判别函数对应于最大后验概率。因此,判别函数的选择不是唯一的。可以通过乘以相同的正常数或通过相同的常数进行平移来调整函数,而不影响决策。这些观察最终导致了显著的计算和分析简化。判别函数修改的示例,调整输出决策是:
g_i(x) = P(ω_i | x) = p(x | ω_i)P(ω_i) / sum(p(x | ω_j)P(ω_j))
g_i(x) = p(x | ω_i)P(ω_i)
g_i(x) = ln p(x | ω_i) + ln P(ω_i)
决策规则不会改变。任何决策规则的目标都是将特征空间划分为c个决策区域,这些区域是R_1, R_2, R_3, ..., R_c。如前所述,如果g_i(x) > g_j(x)对于所有j != i,则x在R_i中,决策规则导致将特征x分配给自然状态w_i。这些区域由决策边界分隔。
总是可以构建一个二分器(一个特殊名称,用于将分类分为两类的分类器)以简化问题。使用决策规则将x分配给w_1如果g_1 > g_2,但可以定义一个单一的判别函数g(x) ≡ g_1(x) - g_2(x),并且决策规则决定w_1如果g(x) > 0;否则它决定w_2。
因此,二分器可以被视为一个系统,它计算一个单一的判别函数g(x)并根据输出的符号对x进行分类。上述方程可以进一步简化为:
g(x) = P(ω_1 | x) - P(ω_2 | x)
g(x) = ln(p(x | ω_1) / p(x | ω_2)) + ln(P(w_1) / P(w_2))
到目前为止,已经很清楚贝叶斯分类器是由类条件密度p(x | w_i)和先验决定的。最吸引人的密度函数,已经研究过的,莫过于多变量正态密度。
连续单变量正态密度p(x)可以表示为,特征空间上x的期望值或平均值。方差由下式给出:
μ ≡ E[x] = ∫ xp(x) dx (from – ∞ to ∞)
σ^2 ≡ E[(x – μ)^2] = ∫ (x – μ)^2 p(x) dx (from – ∞ to ∞)
这个密度完全由这两个参数控制:它的均值和方差。也写p(x) = N(μ, σ^2),这被读作x以均值μ和方差σ^2正态分布。任何分布的熵由下式给出:
H(p(x)) = ∫ p(x) ln p(x) dx (from – ∞ to ∞)
以纳特为单位,但如果使用log2,则单位是比特。任何分布的熵是一个非负实体,它给出了从分布中随机选择的实例值的基本不确定性的概念。事实上,正态分布具有所有具有给定均值和方差的分布中的最大熵。
中心极限定理指出,大量小的随机独立干扰的聚合效应最终将导致高斯分布。许多现实生活的模式——从手写字符到语音声音——可以被视为一些理想或原型模式被大量随机过程破坏。
在d维中的多变量正态分布由下式给出:
p(x) = (1/(2π)^(d/2) |Σ|^(1/2))exp[ -1/2(x – μ)^t Σ^(-1)(x – μ) ]
其中,x是d分量列向量,μ是d分量均值向量,Σ是d乘以d协方差矩阵,|Σ|和Σ^(-1)分别是行列式和逆矩阵,(x – μ)^t是(x – μ)的转置。
一些基本的先决条件是内积、均值和协方差矩阵。如果σ_ij = 0,则x_i和x_j在统计上是独立的。
今天的讨论到此结束!在下一篇文章中,将讨论在不同条件下正态密度的判别函数的计算,并尝试解释所有这些函数,并看看所有这些情况在贝叶斯决策理论的实际用例中的用途。
确定朴素贝叶斯分类器的最优决策边界,其中w = {w_1, w_2},p(x | w_1) = N(1, 1.5)和p(x | w_2) = N(2, 2.5)。先验概率给定为P(w_1) = 1/7和P(w_2) = 6/7,损失矩阵给定为[ [4, 3], [1, 2] ]。
注:这里N(x, y)表示正态密度。