自然语言处理(NLP)是机器学习的一个分支,它研究如何让机器理解人类的语言。文本数据是NLP任务中广泛存在的问题领域。为了处理文本数据,将原始文本转换为机器学习算法可以理解和使用的形式至关重要,这个过程称为文本预处理。有多种文本预处理技术,如词干提取、词形还原、词性标注和依存句法分析。
如果对以音频-视觉格式学习概念更感兴趣,有视频解释整篇文章。如果不感兴趣,可以继续阅读。本文将讨论文本数据的结构相关属性,包括词性标注和依存句法,帮助理解它们的工作原理。
词性标注是定义单词的主要上下文、功能和在句子中的用法的属性。一些常用的词性标注包括名词、动词、形容词和副词。在句子中,每个单词都会与适当的词性标注相关联。例如,考虑下面的句子:
David has purchased a new laptop from the Apple store.
在这个句子中,每个单词都与一个词性标注相关联,定义了它们的功能。这里,David有一个NNP标签,意味着它是一个专有名词。此外,has和purchased属于动词,表示它们是动作。Laptop和Apple store是名词。New是形容词,其作用是修饰laptop的上下文。
词性标注是由单词与其他单词在句子中的关系定义的。可以应用机器学习模型和基于规则的模型来获取单词的词性标注。最常用的词性标注符号由Penn Treebank语料库提供,其中根据它们的用法定义了总共48个词性标注。
词性标注有大量的应用,它们用于各种任务,如文本清洗、特征工程任务、词义消歧等。例如,考虑这些句子:
I will book a flight to Paris.
I have a book on my desk.
在这两个句子中,关键词book被使用,但在第一个句子中,它被用作动词。而在第二个句子中,它被用作名词。
现在让讨论语法。第一种语法是成分句法。任何单词/单词组/短语都可以被称为成分。成分句法的目标是使用它们的属性将任何句子组织成其成分。这些属性通常由它们的词性标注驱动,如名词或动词短语识别。
例如,成分句法可以定义任何句子可以被组织成三个成分:主语、谓语或宾语。这些成分可以取不同的值,并相应地生成不同的句子。
另一种看待成分句法的方式是定义它们以词性标注为依据,比如一个包含
还有另一种语法,即依存句法,它指出“句子中的单词依赖于句子中的其他单词。”例如,在最后一句中,提到了一个barking dog,狗被barking修饰,因为两者之间存在依存形容词-修饰词。
依存句法根据它们的依存关系组织句子中的单词。句子中的一个单词作为根,所有其他单词直接或间接地通过它们的依存关系与根相连。这些依存关系表示句子中单词之间的关系。
依存句法用于理解单词之间的结构和语义依存关系。让考虑一个例子。这个句子的依存树看起来像这样。在这个树中,根词是“community”,具有NN作为词性标注,树中的每个其他单词都直接或间接地与根通过依存关系连接,如直接宾语/直接主语、修饰语等。
这些关系定义了句子中每个单词的角色和功能以及多个单词如何连接在一起。在这里,每个依存可以以包含关系、支配者和依赖者的三元组形式表示。这意味着依赖者通过关系与支配者连接。换句话说,它们是主语-谓语或宾语。