自然语言处理(NLP)是人工智能领域的一个重要分支,它涉及到多种复杂的技术,其中主题模型是其核心部分之一。主题模型在多个领域都有广泛的应用,但它们也面临着一些挑战,比如如何找到能够预测结果的主题,以及如何使已发现的主题更易于理解。本文将探讨这些问题,并介绍一种结合机器学习的解决方案,以提高客户评价的预测能力和模型的可解释性。
主题模型,如潜在狄利克雷分配(LDA),在无监督学习中存在显著的问题。尽管本文将重点讨论LDA的问题,但所讨论的内容也适用于其他类型的无监督主题模型,并有助于理解监督主题模型。
以亚马逊评论数据集为例,可以展示主题模型如何工作。假设某公司希望使用从客户评论文本中提取的“随时间变化的主题”来预测“不同消费品的客户评分”,例如Sensodyne牙膏。在深入细节和查看示例之前,让先讨论无监督主题模型如LDA的问题。
无监督主题模型如LDA存在三个主要问题:
在这个示例中,将使用2017年1月1日至2019年12月31日期间,亚马逊上24种不同类型Sensodyne牙膏的20万条客户评论。下图显示了5个随机客户的数据显示方式。
下图显示了200K+评论中Sensodyne产品类型的客户评分分布。
这个问题的总体方法总结在下图的工作流程中。亚马逊评论与每个评论者所在地区邮政编码对应的宏观经济特征结合起来,这显示了如何将主题模型与其他影响特定情绪的因素结合起来。例如,高收入地区更愿意支付;高教育地区与有机产品的销售更相关,并且对产品周围的某些营销更敏感,等等。
这种方法的主要目标之一,除了提高主题预测产品客户评分变化的能力外,是增强从这些主题模型中获得的洞察力。