贝叶斯决策理论的高级概念

在之前的文章中，讨论了贝叶斯决策理论的基础知识，包括其先决条件，以及如何利用贝叶斯定理基于后验概率做出决策。在本文中，将探讨贝叶斯理论中更一般的高级概念，以便更好地理解和应用。为了更清晰地理解本文，建议先阅读关于贝叶斯决策理论的第一部分文章。

如何推广贝叶斯决策理论？

将通过以下四种方式扩展假设来推广理论：

允许使用多个特征
允许使用多于两种自然状态
允许采取非自然状态判断的动作
引入比错误概率更一般的损失函数

推广后的发展

特征空间：当允许使用多个特征时，从标量x转移到特征向量x。这里，特征向量位于d维的欧几里得空间R^d，也称为特征空间。

自然状态：允许更多的自然状态为提供了有用的泛化，代价是微小的符号变化。

动作：允许分类以外的动作允许拒绝的可能性，例如，在接近或不利的情况下拒绝做出决策，如果错误决策的成本不高，这通常是有用的选项。

损失函数：损失函数决定了采取的每个动作的成本，并进一步可以用于将概率判断转化为决策。成本函数处理分类错误或错误，这些错误比其他错误更昂贵，这与经常讨论的情况不同，即错误成本相等。

损失函数

假设有c个自然状态或类别w_1, w_2, ..., w_c，以及α_1, α_2, ..., α_a是可能的动作集合。那么，损失函数是λ(α_i | w_j)，读作在真实自然状态是w_j时采取动作α_i的损失。如前所述，x是特征空间中的随机变量的d分量向量，p(x | w_j)是x的类条件概率密度函数。然后，后验概率P(w_j | x)可以计算为：

P(w_j | x) = p(x | w_j)P(w_j) / p(x)

证据可以通过以下方式计算：

p(x) = Sum(j=1 to c): p(x | w_j)P(w_j)

风险函数

如果观察到x导致采取动作α_i，并且它真正属于的类别是w_j，那么将面临λ(α_i | w_j)的损失，并且由于P(w_j | x)是正确类别或自然状态是w_j的概率，那么采取动作α_i的损失由以下给出：

R(α_i | x) = Sum(j=1 to c): λ(α_i | ω_j)P(ω_j | x)

在决策理论的背景下，预期损失被称为风险。R(α_i | x)是条件风险。每当观察到x，总是可以通过选择使条件风险最小化的行动来最小化预期损失。

决策规则

本文的主要目的是找到最终将最小化整体风险的决策规则。一般决策规则是一个函数α(x)，表示对于每组可能的特征，应采取的最佳动作。可以说，对于每个x，决策函数α(x)假设α的值之一，而不是其他可能的值α_1, α_2, ..., α_a。

整体风险R是与给定决策规则相关的预期损失，R(α_i | x)是与动作α_i相关的条件风险。由于决策规则指定了行动，整体风险通常由以下给出：

R = integration R(α(x) | x)p(x) dx

其中dx = d空间体积元素，积分扩展到整个特征空间。

就决策规则而言，选择α(x)使得对于每个x，风险R(α_i(x))最小化，以便整体风险也最小化。

贝叶斯风险

根据贝叶斯决策规则：为了最小化整体风险，计算条件风险，即R(α_i | x) = sum (j=1 to c): λ(α_i | ω_j)P(ω_j | x)，使得i=1, ..., a，并选择使R(α_i | x)最小的动作。

为了更好地理解，让考虑一个二分类的例子。在这里，将有动作α_1对应于决定自然状态是w_1，α_2对应于决定w_2。损失的表示是λ_ij = λ(α_i | ω_j)，即在决定w_i时，真实自然状态是w_j时发生的损失。重写条件风险为：

R(α_1 | x) = λ_11 P(ω_1 | x) + λ_12 P(ω_2 | x) R(α_2 | x) = λ_21 P(ω_1 | x) + λ_22 P(ω_2 | x)

回到获得决策规则，基本上可以同意如果R(α_1 | x) < R(α_2 | x)，即选择风险较小的一个，就决定w_1。

基于R(α_1 | x) < R(α_2 | x)，上述风险表达式得到：

(λ_21 - λ_11)P(ω_1 | x) > (λ_12 - λ_22)P(ω_2 | x)

通过使用经典的贝叶斯公式，可以用类条件和先验替换后验，得到决策规则为决定ω_1如果：

(λ_21 - λ_11)p(x | ω_1)P(ω_1) > (λ_12 - λ_22)p(x | ω_2)P(ω_2)

或者选择w_2。

也可以重写为：

p(x | ω_1) / p(x | ω_2) > (λ_12 - λ_22) * P(ω_2) / (λ_21 - λ_11) * P(ω_1)

假设λ_21 > λ_11，这种形式可以被解释为如果上述等式成立，就选择w_1。

在这里，p(x | ω_1) / p(x | ω_2)通常被称为似然比。贝叶斯决策规则可以被解释为如果似然比超过阈值，即右侧项，这是一个常数，因为先验和λ在计算后是常数，这与观察x无关，就决定w_1。

讨论问题

考虑以下数据集：

样本编号	宽度	高度	类别
1	小	小	C1
2	中等	小	C2
3	中等	大	C2
4	大	小	C1
5	中等	中等	C1
6	大	大	C1
7	小	中等	C2
8	大	中等	C1

现在回答以下问题：（使用贝叶斯决策理论）

计算两个类别的先验概率。
样本（宽度-小，高度-大）属于哪个类别？
计算上述样本（第2部分）分类错误的概率。

主成分分析（PCA）详解

本文详细介绍了主成分分析（PCA）的必要性、工作原理、应用前的预处理步骤以及主成分的解释方法。

异常值处理指南

本文探讨了在机器学习中如何处理异常值，包括异常值的定义、产生原因、对统计分析的影响以及多种检测和处理异常值的方法。

贝叶斯决策理论的高级概念

如何推广贝叶斯决策理论？

推广后的发展

损失函数

风险函数

决策规则

贝叶斯风险

讨论问题

主成分分析（PCA）详解

异常值处理指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485

贝叶斯决策理论的高级概念

如何推广贝叶斯决策理论？

推广后的发展

损失函数

风险函数

决策规则

贝叶斯风险

讨论问题

主成分分析（PCA）详解

异常值处理指南

沪ICP备2024098111号-1

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢 联系电话：17898875485

上海秋旦网络科技中心：上海市奉贤区金大公路8218号1幢联系电话：17898875485