在之前的文章中,讨论了贝叶斯决策理论的基础知识,包括其先决条件,以及如何利用贝叶斯定理基于后验概率做出决策。在本文中,将探讨贝叶斯理论中更一般的高级概念,以便更好地理解和应用。为了更清晰地理解本文,建议先阅读关于贝叶斯决策理论的第一部分文章。
将通过以下四种方式扩展假设来推广理论:
特征空间:当允许使用多个特征时,从标量x转移到特征向量x。这里,特征向量位于d维的欧几里得空间R^d,也称为特征空间。
自然状态:允许更多的自然状态为提供了有用的泛化,代价是微小的符号变化。
动作:允许分类以外的动作允许拒绝的可能性,例如,在接近或不利的情况下拒绝做出决策,如果错误决策的成本不高,这通常是有用的选项。
损失函数:损失函数决定了采取的每个动作的成本,并进一步可以用于将概率判断转化为决策。成本函数处理分类错误或错误,这些错误比其他错误更昂贵,这与经常讨论的情况不同,即错误成本相等。
假设有c个自然状态或类别w_1, w_2, ..., w_c,以及α_1, α_2, ..., α_a是可能的动作集合。那么,损失函数是λ(α_i | w_j),读作在真实自然状态是w_j时采取动作α_i的损失。如前所述,x是特征空间中的随机变量的d分量向量,p(x | w_j)是x的类条件概率密度函数。然后,后验概率P(w_j | x)可以计算为:
P(w_j | x) = p(x | w_j)P(w_j) / p(x)
证据可以通过以下方式计算:
p(x) = Sum(j=1 to c): p(x | w_j)P(w_j)
如果观察到x导致采取动作α_i,并且它真正属于的类别是w_j,那么将面临λ(α_i | w_j)的损失,并且由于P(w_j | x)是正确类别或自然状态是w_j的概率,那么采取动作α_i的损失由以下给出:
R(α_i | x) = Sum(j=1 to c): λ(α_i | ω_j)P(ω_j | x)
在决策理论的背景下,预期损失被称为风险。R(α_i | x)是条件风险。每当观察到x,总是可以通过选择使条件风险最小化的行动来最小化预期损失。
本文的主要目的是找到最终将最小化整体风险的决策规则。一般决策规则是一个函数α(x),表示对于每组可能的特征,应采取的最佳动作。可以说,对于每个x,决策函数α(x)假设α的值之一,而不是其他可能的值α_1, α_2, ..., α_a。
整体风险R是与给定决策规则相关的预期损失,R(α_i | x)是与动作α_i相关的条件风险。由于决策规则指定了行动,整体风险通常由以下给出:
R = integration R(α(x) | x)p(x) dx
其中dx = d空间体积元素,积分扩展到整个特征空间。
就决策规则而言,选择α(x)使得对于每个x,风险R(α_i(x))最小化,以便整体风险也最小化。
根据贝叶斯决策规则:为了最小化整体风险,计算条件风险,即R(α_i | x) = sum (j=1 to c): λ(α_i | ω_j)P(ω_j | x),使得i=1, ..., a,并选择使R(α_i | x)最小的动作。
为了更好地理解,让考虑一个二分类的例子。在这里,将有动作α_1对应于决定自然状态是w_1,α_2对应于决定w_2。损失的表示是λ_ij = λ(α_i | ω_j),即在决定w_i时,真实自然状态是w_j时发生的损失。重写条件风险为:
R(α_1 | x) = λ_11 P(ω_1 | x) + λ_12 P(ω_2 | x)
R(α_2 | x) = λ_21 P(ω_1 | x) + λ_22 P(ω_2 | x)
回到获得决策规则,基本上可以同意如果R(α_1 | x) < R(α_2 | x),即选择风险较小的一个,就决定w_1。
基于R(α_1 | x) < R(α_2 | x),上述风险表达式得到:
(λ_21 - λ_11)P(ω_1 | x) > (λ_12 - λ_22)P(ω_2 | x)
通过使用经典的贝叶斯公式,可以用类条件和先验替换后验,得到决策规则为决定ω_1如果:
(λ_21 - λ_11)p(x | ω_1)P(ω_1) > (λ_12 - λ_22)p(x | ω_2)P(ω_2)
或者选择w_2。
也可以重写为:
p(x | ω_1) / p(x | ω_2) > (λ_12 - λ_22) * P(ω_2) / (λ_21 - λ_11) * P(ω_1)
假设λ_21 > λ_11,这种形式可以被解释为如果上述等式成立,就选择w_1。
在这里,p(x | ω_1) / p(x | ω_2)通常被称为似然比。贝叶斯决策规则可以被解释为如果似然比超过阈值,即右侧项,这是一个常数,因为先验和λ在计算后是常数,这与观察x无关,就决定w_1。
考虑以下数据集:
样本编号 | 宽度 | 高度 | 类别 |
---|---|---|---|
1 | 小 | 小 | C1 |
2 | 中等 | 小 | C2 |
3 | 中等 | 大 | C2 |
4 | 大 | 小 | C1 |
5 | 中等 | 中等 | C1 |
6 | 大 | 大 | C1 |
7 | 小 | 中等 | C2 |
8 | 大 | 中等 | C1 |
现在回答以下问题:(使用贝叶斯决策理论)