文本挖掘与情感分析:无需编码的Orange工具使用指南

文本挖掘,也称为文本分析,是一种利用自然语言处理(NLP)技术从标准语言文本中提取关键数据的人工智能技术。它将电子邮件、评论、文档、数据库中的非结构化数据转化为结构化数据,以获取关键洞察并执行不同的机器学习算法。随着对员工、客户和利益相关者收集的非结构化数据的理解变得越来越重要,文本挖掘技术也日益受到关注。

为何选择无代码工具Orange

以往,从文本数据中提取实用洞察需要使用编码工具,这要求有强大的编码技术和知识背景。但现在,可以快速完成同样的工作而无需编写任何代码行,这使得工作更简单,也消除了了解编码语言的需要。尽管如此,要使用这些无代码工具,需要具备扎实的统计技术知识。

Orange就是这样一个无代码工具,它允许可视化数据并执行数据挖掘和机器学习。本文将展示如何使用这个无代码工具对包含近10000条数据记录的船用耳机评论数据集进行情感分析。

什么是情感分析

情感分析,也称为意见挖掘,是一种自然语言处理(NLP)技术,用于识别数据是积极的、消极的还是中性的。它通常对结构化和非结构化的文本数据进行分析,以获取关键的商业洞察并跟踪品牌和产品的情感。这使组织能够根据当前客户的需求理解和提供产品/服务。

情感分析的应用

情感分析的几个应用包括:客户评论分析(品牌情感或产品情感分析)、市场分析、社交媒体监控和市场研究。

情感分析算法的类型

A. 基于规则的 - 这是一种实用的方法,系统在不使用机器学习模型的情况下自动分析文本。输出是基于不同规则的,根据这些规则,文本内容被标记为积极、消极或中性。应用这些规则时,利用了NLP技术,包括词性标注、解析、词干提取、词典和分词。这些规则也被称为词典。因此,基于规则的方法也被称为基于词典的方法。常用的基于词典的方法包括TextBlob、VADER和SentiWordNet。

B. 自动的 - 在这里,系统依赖于机器学习模型从数据中学习。在这种类型的情感分析中,实现了一个分类机器学习模型,以确定输入文本属于不同的情感,如积极、消极或中性。首先,输入数据被输入到模型中,提取特征并与特定标签关联。特征提取过程包括词袋模型或n-gram模型、文本向量化、词嵌入和词频等技术。然后,训练数据被分类为不同的情感(或标签),以获得训练有素的监督模型。

在下一步中,使用训练步骤中学习到的模型,在未见过的数据点上生成类别(或标签)的预测。常用的标准分类模型包括朴素贝叶斯、逻辑回归、支持向量机、线性回归和用于分类问题的深度学习。

要执行情感分析,需要安装Orange的“文本挖掘”小部件,这是一个附加功能。在进一步操作之前,需要了解这个平台的两个基本术语。小部件是任何数据操作的主要处理点。工作流是在平台上执行的一系列步骤或动作,以完成特定任务。

1. 导入csv文件 - 从数据中拖动csv文件导入图标,将其放在画布的右侧,并点击以导入文件。这是开发整个工作流的方式。用户只需要拖放正确的字段并根据统计要求连接它们以执行必要的任务。

2. 导入数据表 - 这需要查看数据集的电子表格形式。在这里,将能够以表格形式查看数据。

3. 导入语料库和语料库查看器 - 文本语料库是一个大型且非结构化的文本集合,用于统计分析和假设检验,检查特定语言领域内的发生次数或验证语言规则。

4. 导入处理文本 - 导入这个将帮助处理所有数据预处理部分,并使能够执行。转换(小写)、分词(单词、标点、空格、句子、正则表达式)、规范化(Porter词干提取器、Snowball词干提取器)、过滤(停用词)、N-gram、词性标注。

5. 导入词云 - 导入词云,也称为标签云,是单词的视觉表示,给出现频率更高的单词更大的突出显示。

6. 导入情感分析 - 这需要执行评论的情感分析,理解客户的语气(即积极、消极和中性)。下图显示了评论集群的热图。下表显示了以表格形式的情感分数。在这里可以看到每条评论的分数。复合分数是负数、正数、中性分数的总和,标准化在-1(最极端的消极)和+1(最极端的积极)之间。复合分数越接近+1,文本的积极性就越高。

结论:这就是在Orange中进行情感分析的方式。因此,在本文中,已经了解了如何对保存在csv文件格式中的非结构化文本内容进行情感分析。此外,还了解了如何理解文本的语气。至少为了更好地使用这个工具,用户必须发展出对所需统计技术的扎实知识,并通过构建错误的工作流顺序来实现算法。这个工具对于不写一行代码就执行不同的机器学习算法是有益的。这个平台可以用于分析,相对容易使用,并且具有美观的视觉效果。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485