自然语言处理中的语法分析

什么是语法?

语法定义为形成良好结构化句子的规则。在描述良好构造程序的句法结构时,语法扮演着至关重要的角色。简而言之,语法指的是用于自然语言对话的句法规则。形式语言理论不仅适用于此,还广泛应用于计算机科学领域,特别是在编程语言和数据结构中。例如,在C编程语言中,精确的语法规则说明了如何使用列表和语句来构建函数。

从数学角度来看,一个语法G可以写成一个四元组(N, T, S, P),其中:

N 或 V_N = 非终结符或变量的集合。 T 或 Σ = 终结符的集合。 S = 起始符号,S ∈ N P = 终结符和非终结符的生产规则。

它具有形式α → β,其中α和β是字符串,且α中至少有一个符号属于V_N。

NLP中的不同语法类型

上下文无关文法,简称CFG,是一种用于描述语言的符号,它是正则文法的超集。CFG由一组有限的语法规则组成,包括以下四个组成部分:

  • 非终结符集合
  • 终结符集合
  • 产生式集合
  • 起始符号

非终结符集合用V表示,它们是帮助定义语言的字符串集合的句法变量。终结符集合也称为标记,用Σ表示,字符串由终结符的基本符号组成。产生式集合用P表示,它说明了终结符和非终结符如何组合。每个产生式包括非终结符、箭头和终结符(终结符序列)。产生式的左侧称为非终结符,右侧称为终结符。起始符号用S表示,非终结符总是被指定为起始符号。

成分文法,也称为短语结构文法,是基于成分关系的。与依存文法相对,成分文法基于成分关系。在深入讨论CG之前,让先了解一些关于成分文法和成分关系的基本点。所有相关框架都以成分关系来看待句子结构。成分关系的推导借助于拉丁语和希腊语语法的主谓划分。在这里,以名词短语NP和动词短语VP的形式来研究从句结构。

例如,句子“This tree is illustrating the constituency relation”展示了成分关系。在成分文法中,成分可以是任何单词、单词组或短语,成分文法的目标是使用它们的性质将任何句子组织成其成分。为了推导这些性质,通常借助于词性标注、名词或动词短语识别等。

成分文法可以组织任何句子成三个成分——主语、谓语和宾语。这些三个成分可以取不同的值,结果可以生成不同的句子。例如,如果有以下成分,那么可以生成以下句子:

“The dogs are barking in the park” “They are eating happily” “The horses are running since the morning”

成分文法的另一种观点是按它们的词性标签定义它们的语法。例如,一个包含[determiner, noun] [adjective, verb] [preposition, determiner, noun]的语法结构对应于相同的句子——“The dogs are barking in the park”。

依存文法与成分文法相对,基于依存关系。依存文法与成分文法相对,因为它缺乏短语节点。在深入讨论DG之前,让先了解一些关于依存文法和依存关系的基本点。在依存文法中,单词通过有向链接相互连接。动词被认为是从句结构的中心。每个其他句法单位都通过有向链接与动词连接。这些句法单位称为依赖项。

依存文法指出,句子中的单词依赖于句子中的其他单词。例如,在之前在CG中讨论的句子中,“barking dog”被提及,狗通过barking被修饰,因为两者之间存在依赖形容词修饰语。

它根据它们的依赖关系组织句子中的单词。句子中的一个单词表现为根,除了那个单词本身之外的所有其他单词都直接或间接地与根连接,使用它们的依赖关系。这些依赖关系表示单词之间的关系,依存文法用于推断单词之间的结构和语义依赖关系。

在上述树中,根词是“community”,词性标记为NN,树中的每个其他单词都直接或间接地与根连接,依赖关系如直接宾语、直接主语、修饰语等。这些关系定义了句子中每个单词的角色和功能以及多个单词如何连接在一起。

可以将每个依赖关系表示为一个三元组,包含一个中心词、一个关系和一个依赖词,关系:(中心词,关系,依赖词),这意味着一个依赖词通过关系与中心词连接,或者换句话说,它们分别被视为主语、谓语和宾语。

依存文法的一些用例如下:

  • 命名实体识别
  • 问答系统
  • 指代消解
  • 文本摘要和文本分类

注意:使用成分文法的解析树称为基于成分的解析树,使用依存文法的解析树称为基于依存的解析树。

还可以查看之前的博客文章。

LinkedIn:

这是LinkedIn个人资料,如果想与联系,将非常高兴与建立联系。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485