贝叶斯决策理论的高级概念

在之前的文章中,讨论了贝叶斯决策理论的基础知识,包括其先决条件,以及如何利用贝叶斯定理基于后验概率做出决策。在本文中,将探讨贝叶斯理论中更一般的高级概念,以便更好地理解和应用。为了更清晰地理解本文,建议先阅读关于贝叶斯决策理论的第一部分文章。

如何推广贝叶斯决策理论?

将通过以下四种方式扩展假设来推广理论:

  1. 允许使用多个特征
  2. 允许使用多于两种自然状态
  3. 允许采取非自然状态判断的动作
  4. 引入比错误概率更一般的损失函数

推广后的发展

特征空间:当允许使用多个特征时,从标量x转移到特征向量x。这里,特征向量位于d维的欧几里得空间R^d,也称为特征空间。

自然状态:允许更多的自然状态为提供了有用的泛化,代价是微小的符号变化。

动作:允许分类以外的动作允许拒绝的可能性,例如,在接近或不利的情况下拒绝做出决策,如果错误决策的成本不高,这通常是有用的选项。

损失函数:损失函数决定了采取的每个动作的成本,并进一步可以用于将概率判断转化为决策。成本函数处理分类错误或错误,这些错误比其他错误更昂贵,这与经常讨论的情况不同,即错误成本相等。

损失函数

假设有c个自然状态或类别w_1, w_2, ..., w_c,以及α_1, α_2, ..., α_a是可能的动作集合。那么,损失函数是λ(α_i | w_j),读作在真实自然状态是w_j时采取动作α_i的损失。如前所述,x是特征空间中的随机变量的d分量向量,p(x | w_j)是x的类条件概率密度函数。然后,后验概率P(w_j | x)可以计算为:

P(w_j | x) = p(x | w_j)P(w_j) / p(x)

证据可以通过以下方式计算:

p(x) = Sum(j=1 to c): p(x | w_j)P(w_j)

风险函数

如果观察到x导致采取动作α_i,并且它真正属于的类别是w_j,那么将面临λ(α_i | w_j)的损失,并且由于P(w_j | x)是正确类别或自然状态是w_j的概率,那么采取动作α_i的损失由以下给出:

R(α_i | x) = Sum(j=1 to c): λ(α_i | ω_j)P(ω_j | x)

在决策理论的背景下,预期损失被称为风险。R(α_i | x)是条件风险。每当观察到x,总是可以通过选择使条件风险最小化的行动来最小化预期损失。

决策规则

本文的主要目的是找到最终将最小化整体风险的决策规则。一般决策规则是一个函数α(x),表示对于每组可能的特征,应采取的最佳动作。可以说,对于每个x,决策函数α(x)假设α的值之一,而不是其他可能的值α_1, α_2, ..., α_a。

整体风险R是与给定决策规则相关的预期损失,R(α_i | x)是与动作α_i相关的条件风险。由于决策规则指定了行动,整体风险通常由以下给出:

R = integration R(α(x) | x)p(x) dx

其中dx = d空间体积元素,积分扩展到整个特征空间

就决策规则而言,选择α(x)使得对于每个x,风险R(α_i(x))最小化,以便整体风险也最小化。

贝叶斯风险

根据贝叶斯决策规则:为了最小化整体风险,计算条件风险,即R(α_i | x) = sum (j=1 to c): λ(α_i | ω_j)P(ω_j | x),使得i=1, ..., a,并选择使R(α_i | x)最小的动作。

为了更好地理解,让考虑一个二分类的例子。在这里,将有动作α_1对应于决定自然状态是w_1,α_2对应于决定w_2。损失的表示是λ_ij = λ(α_i | ω_j),即在决定w_i时,真实自然状态是w_j时发生的损失。重写条件风险为:

R(α_1 | x) = λ_11 P(ω_1 | x) + λ_12 P(ω_2 | x) R(α_2 | x) = λ_21 P(ω_1 | x) + λ_22 P(ω_2 | x)

回到获得决策规则,基本上可以同意如果R(α_1 | x) < R(α_2 | x),即选择风险较小的一个,就决定w_1。

基于R(α_1 | x) < R(α_2 | x),上述风险表达式得到:

(λ_21 - λ_11)P(ω_1 | x) > (λ_12 - λ_22)P(ω_2 | x)

通过使用经典的贝叶斯公式,可以用类条件和先验替换后验,得到决策规则为决定ω_1如果:

(λ_21 - λ_11)p(x | ω_1)P(ω_1) > (λ_12 - λ_22)p(x | ω_2)P(ω_2)

或者选择w_2。

也可以重写为:

p(x | ω_1) / p(x | ω_2) > (λ_12 - λ_22) * P(ω_2) / (λ_21 - λ_11) * P(ω_1)

假设λ_21 > λ_11,这种形式可以被解释为如果上述等式成立,就选择w_1。

在这里,p(x | ω_1) / p(x | ω_2)通常被称为似然比。贝叶斯决策规则可以被解释为如果似然比超过阈值,即右侧项,这是一个常数,因为先验和λ在计算后是常数,这与观察x无关,就决定w_1。

讨论问题

考虑以下数据集:

样本编号 宽度 高度 类别
1 C1
2 中等 C2
3 中等 C2
4 C1
5 中等 中等 C1
6 C1
7 中等 C2
8 中等 C1

现在回答以下问题:(使用贝叶斯决策理论)

  1. 计算两个类别的先验概率。
  2. 样本(宽度-小,高度-大)属于哪个类别?
  3. 计算上述样本(第2部分)分类错误的概率。
沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485