在本文中,探讨了不同数据集规模和目标类别数量对模型性能的影响。实验基于亚马逊产品评论数据集进行,该数据集包含了评论标题、评论文本和评分。将评分视为输出类别,并进行了三种实验:二分类(极性0/1)、三分类(积极、消极、中立)和五分类(1至5的评分)。包括了三种传统机器学习模型和三种深度学习模型。
1. 逻辑回归(LR)
2. 支持向量机(SVM)
3. 朴素贝叶斯(NB)
1. 卷积神经网络(CNN)
2. 长短期记忆网络(LSTM)
3. 门控循环单元(GRU)
使用的是亚马逊产品评论数据集,该数据集包含了360万条产品评论的文本形式。提供了分别包含300万和60万条评论的训练和测试文件,以CSV格式存在。每个实例具有三个属性:评分、评论标题和评论文本。仅考虑了150万条评论。
已经提到,整个实验是针对二分类、三分类和五分类进行的。在将数据集传递给分类模型之前,对数据集进行了一些预处理步骤。每个实验都是逐步进行的。从5万条实例开始训练,并逐步增加到150万条实例。最后,记录了每个模型的性能参数。
3.1.1 标签映射:
在二分类中,将评分1和2映射到类别0,评分4和5映射到类别1。这种分类可以被视为情感分类问题,其中评分1和2的评论属于消极类别,而评分4和5属于积极类别。没有考虑评分为3的评论,因此在二分类实验中,用于训练的实例比其他两个实验要少。
在三分类中,扩展了之前的分类实验。现在将评分3视为一个新的独立类别。新的评分到类别的映射如下:评分1和2映射到类别0(消极),评分3映射到类别1(中立),评分4和5映射到类别2(积极)。类别1的实例数量远少于类别0和2,这造成了类别不平衡问题。因此,在计算性能指标时使用了微平均。
在五分类中,将每个评分视为一个独立的类别。映射如下:评分1映射到类别0,评分2映射到类别1,评分3映射到类别2,评分4映射到类别3,评分5映射到类别4。
3.1.2 评论文本预处理:
亚马逊产品评论以文本格式存在。需要将文本数据转换为数值格式,以便用于训练模型。对于机器学习模型,将评论文本转换为TF-IDF向量格式,使用sklearn库。不仅考虑每个单词,还考虑n-gram模型来创建TF-IDF向量。n-gram的范围设置为2-3,max-feature值设置为5000。
对于深度学习模型,需要将文本序列数据转换为数值序列数据。应用word to vector模型将每个单词转换为等效的向量。数据集中包含大量单词,因此1-hot编码非常低效。这里使用预训练的word2Vec模型来表示每个单词,用大小为300的列向量表示。将序列的最大长度设置为70。
少于70个词的评论在开头用零填充。对于词数超过70的评论,选择前70个词进行word2Vec处理。
之前提到,采用了三种传统机器学习模型(LR、SVM、NB)和三种深度学习模型(CNN、LSTM、GRU)。将预处理后的文本和标签信息传递给模型进行训练。
首先,用5万条实例训练所有六个模型,并用5千条实例进行测试。在下一次迭代中,在训练和测试集中分别增加了5万和5千条实例。进行了30次迭代,因此在最后一次迭代中,考虑了150万条、15万条实例用于训练和测试集。上述训练针对所有三种分类实验进行。
使用了实验中使用的所有传统分类器的默认超参数设置。在CNN中,输入大小为70,嵌入大小为300。嵌入层dropout设置为0.3。在输入上应用1-D卷积,卷积的输出大小设置为100。核大小保持为3。
Relu
激活函数在卷积层中使用。对于池化过程,使用最大池化。使用Adam优化器和交叉熵损失函数。LSTM和GRU也具有相同的超参数设置。输出层的大小随着正在执行的实验而变化。
采用了F1分数来分析分类模型在不同类别标签和实例数量下的性能。如果试图提高召回率,精确度将受到影响,反之亦然。F1分数以谐波平均数的形式结合了精确度和召回率。
在三类和五类分类中,观察到评分为3的实例数量很少,与其他评分相比,这造成了类别不平衡问题。因此,在计算性能参数时使用了微平均概念。微平均在计算精确度和召回率时考虑到了类别不平衡。有关精确度、召回率的详细信息,请访问以下链接:
在本节中,展示了实验结果,这些结果涉及不同数据集大小和类别标签数量。为每个实验提供了单独的图表。图表在测试集大小和F1分数之间绘制。此外,提供了包含六个子图的图5。每个子图对应一个分类器。展示了在不同测试集大小时,两个实验之间的性能分数变化率。
图2展示了二分类任务中分类器的性能。由于移除了评分为3的评论,实际测试大小小于用于测试的数据。机器学习分类器(LR、SVM、NB)的表现相对稳定,除了在起始点有轻微变化。深度学习分类器(GRU和CNN)的起始性能低于SVM和LR。经过最初的三次迭代后,GRU和CNN持续优于机器学习分类器。LSTM表现最有效的学习。LSTM以最低性能开始。随着训练集超过0.3M,LSTM显示出持续增长,并以GRU结束。
图3展示了三类分类实验的结果。所有分类器的性能随着类别的增加而降低。如果将特定分类器与其他分类器进行比较,性能与二分类相似。唯一的区别在于LSTM的性能。在这里,LSTM持续提高性能,与二分类不同。LR的表现略好于SVM。LR和SVM在二分类实验中表现相当。
图4代表五类分类实验的结果。结果遵循二分类和三类分类实验中出现的趋势。在这里,LR和SVM之间的性能差异略有增加。因此,可以得出结论,随着类别数量的增加,LR和SVM的性能差距增加。