理解拉普拉斯平滑技术

随着“推特”上关注者数量的显著增加,与数月前相比,这清楚地展示了“推特”在全球范围内获得的重要性和信任。许多研究表明,公民对通过像“推特”这样的社交网络平台了解紧急情况感兴趣,政府官员也应该使用它们。

在处理一个分类问题(自然语言处理)时,需要预测推文(以及其他特征)是否在COVID-19大流行期间发布。即使使用“朴素贝叶斯算法”作为合适的模型,在测试期间,预测结果有些可疑。“造成这种问题的原因是测试数据的零概率问题”。

结果可疑的原因

考虑一个“亚马逊公司数据集”,其中给定的评论(文本)需要被分类为正面或负面。这种现实生活问题在决定像亚马逊这样的跨国巨头的未来战略中具有重要意义。

使用当前的训练集,构建了一个似然表。然而,当使用似然值预测测试数据集时,一些单词只出现在测试数据集中,而不在训练集中。例如,一个测试查询有形式,查询评论= x1x2x'。假设一个测试样本有三个单词,假设x1和x2在训练数据中存在,但不是x'。所以有这两个词的似然。为了预测评论是正面还是负面,比较P(positive/review)和P(negative/review),并选择两者中的最大概率作为对评论的预测。

使用贝叶斯定理来计算这些概率。在计算这些概率时,不涉及证据,因为证据对所有类别都是恒定的。所以现在概率方程变为:

P(positive/review) = K*P(x1/positive)*P(x2/positive)*P(x'/positive)*P(positive) P(negative/review) = K*P(x1/negative)*P(x2/negative)*P(x'/negative)*P(negative)

在这里,k是比例常数。在似然表中,P(x1/positive),P(x2/positive)和P(positive)的值存在,但P(x'/positive)不存在,因为x'不在训练数据中。由于没有这个概率的值,现在无法确定预测,模型表现不佳。那么问题是应该怎么做?

拉普拉斯平滑

拉普拉斯平滑是一种用于平滑分类数据的技术。1. 在每个概率估计中都会加入一个小样本校正或伪计数。2. 因此,没有概率会是零。3. 这是对朴素贝叶斯的一种正则化方式,当伪计数为零时,它被称为拉普拉斯平滑。4. 而在一般情况下,它通常被称为Lidstone平滑。

在统计学中,加法平滑,也称为拉普拉斯平滑或Lidstone平滑,是一种用于平滑分类数据的技术。拉普拉斯平滑被引入来解决零概率问题,即当一个查询点包含一个在训练数据中尚未看到的新观察时,在计算概率时出现的问题。

拉普拉斯平滑背后的思想是确保后验概率永远不会是零,在分子中加1,在分母中加k。所以,在没有特定成分的训练集中,后验概率变为1 / N + k而不是零。将这个值插入乘积中不会像插入零那样破坏预测能力。

P(x'/positive) = (number of reviews with x' and target_outcome=positive + α) / (N + α*k)

在这里,α代表平滑参数,K代表数据中的维度(特征数量),N代表目标结果为positive的评论数量。如果选择一个非零的α值,即使一个词在训练数据集中不存在,概率也不会是零。但如果选择α值为零,那么就没有平滑发生,问题还没有解决。

随着α的增加,似然概率趋向于均匀分布,即概率值将为0.5(使用更高的α值将使似然趋向于0.5的值,即一个词对于正面和负面评论的概率为0.5)。大多数时候,α = 1被用来解决朴素贝叶斯算法中的零概率问题。

注意:有时拉普拉斯平滑技术也被称为“加一平滑”。在拉普拉斯平滑中,1(一)被加到所有计数中,然后计算概率。这是所有技术中最简单的平滑技术之一。

选择α值时的注意事项

‘α’不应该扰乱分配给未知数据/新观察的均匀概率。

寻找最优的‘α’

在这里,α是一个超参数,需要调整它。基本的方法如下:

  • 使用肘部图,尝试绘制‘性能指标’与‘α’超参数的关系图。
  • 在大多数情况下,确定α的最佳值的最好方法是通过网格搜索可能的参数值,并使用交叉验证来评估模型在每个值上对数据的性能。

结束语

在这篇文章中,学到了一种用于自然语言处理(NLP)的平滑技术。这不是唯一的平滑技术,但在这篇文章中,只学习了拉普拉斯平滑的理论概念和数学公式。应该尝试在实际项目中实现它。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485