贝叶斯决策理论是一种基于概率统计的分类方法,它通过量化不同分类决策之间的权衡来实现。这种方法依赖于贝叶斯定理,用于计算条件概率。在统计模式识别中,关注的是模式的统计特性,这些特性通常以概率密度的形式表达(pdf和pmf),这将占据本文的大部分内容,并试图发展贝叶斯决策理论的基础知识。
随机变量是将可能的结果集映射到某些值的函数,例如在抛硬币时,正面H为1,反面T为0,其中0和1是随机变量。
条件概率A给定B,表示为P(A | B),是在B发生的情况下A发生的概率。贝叶斯定理的公式如下:
P(A | B) = P(A,B)/P(B)
或者使用链式法则,也可以写成:
P(A,B) = P(A|B)P(B) = P(B|A)P(A)
其中,P(B) = P(B,A) + P(B,A') = P(B|A)P(A) + P(B|A')P(A')。
(a) 先验或自然状态:先验概率表示每个类别发生的可能性。先验是在训练过程之前已知的。自然状态是一个随机变量P(w_i)。如果只有两个类别,则先验之和P(w_1) + P(w_2) = 1,如果类别是穷尽的。
(b) 类条件概率:它表示在给定它属于特定类别的情况下,特征x发生的可能性。它由P(X|A)表示,其中x是特定特征。
(c) 证据:它是特定特征发生的概率,即P(X)。可以使用链式法则计算,P(X) = Σ P(X | w_i) P(w_i)。
(d) 后验概率:它是在给定某些特征时类别A发生的概率。这是在测试阶段计算的目标,即有测试输入或特征(给定实体),需要找出训练模型预测特征属于特定类别w_i的可能性。