文本数据预处理技术

自然语言处理(NLP)和机器学习领域,文本数据是一种非结构化数据形式,它包括社交媒体数据(如推文、帖子、评论)和对话数据(如消息、电子邮件、聊天)。此外,还包括文章数据(如新闻文章、博客等)。文本数据本质上是一种自然语言的书面形式,如印地语、英语、俄语等,由字符或词汇以有意义的有序方式排列组成,这意味着文本数据受语法规则和定义结构的驱动。

为了使机器学习算法能够理解和使用文本数据,需要将原始文本转换为机器学习算法可以理解和使用的形式,这个过程称为文本预处理。本文将讨论与自然语言处理相关的不同术语和技术。首先,讨论语料库、分词和N-gram等重要术语的含义。

语料库是文本文档的集合。例如,一个包含新闻文章的数据集就是一个语料库。同样,包含推文的Twitter数据也是一个语料库。语料库由文档组成,文档包含段落,段落包含句子,最终句子由分词组成。

分词是句子或文档的基本意义单位。它们可以由单词、短语、子词如N-gram或字符组成。N-gram是N个单词或字符的组合。例如,如果有一句“爱手机”,可以将其分解为多个N-gram,如下所示。

N-gram在文本分类任务中非常有用。现在已经清楚了基本术语的含义,让看看文本数据预处理中使用的一些技术。

分词

分词是将文本对象分割成更小的单位,称为分词。分词的例子可以是单词、字符、数字、符号或N-gram。最常见的分词过程是空白/单分词分词。在这个过程中,整个文本通过空白分割成单词。如下例所示,整个句子被分割成单分词,即“I”、“Went”、“To”、“New-York”等。

注意,New-York没有进一步分割,因为分词仅基于空白。另一种分词是正则表达式分词。在这种情况下,使用正则表达式模式来获取分词。例如,考虑以下包含多个分隔符的字符串。可以通过传递分割模式来分割句子。分词可以在句子级别、单词级别甚至字符级别进行。

归一化

在语言学和NLP领域,词素被定义为单词的基本形式。分词基本上由两个组成部分,一个是词素,另一个是屈折形式,如前缀或后缀。例如,考虑单词“Antinationalist”(Anti + national + ist),它由Anti和ist作为屈折形式,national作为词素组成。

归一化是将分词转换为其基本形式的过程。在归一化过程中,去除单词的屈折形式,以获得基本形式。因此,在上面的例子中,antinationalist的正常形式是national。归一化有助于减少文本中唯一分词的数量,去除文本中的变异,并清理文本,去除冗余信息。

归一化的两种流行方法是词干提取和词元还原。让详细讨论它们。

词干提取是一种基本的基于规则的过程,用于从给定的分词中去除屈折形式。错误的输出是单词的词干。例如,laughing、laughed、laughs、laugh在词干提取过程后都将成为laugh。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485