在自然语言处理(NLP)的领域中,命名实体识别(NER)是一项关键技术,它涉及到从文本中自动识别和分类实体。本文将深入探讨NER的定义、模型结构、工作原理、应用案例以及如何实际应用NER技术。
在NLP中,实体指的是文本中的重要部分,如名词短语或动词短语。实体检测算法通常结合了多种技术,包括基于规则的解析、字典查找、词性标注和依存句法分析。例如,在句子“Cate Blanchett将于周四晚上在Chateau Marmont举行活动”中,可以识别出以下实体:日期(周四)、时间(晚上)、地点(Chateau Marmont)和人物(Cate Blanchett)。
NER是NLP中用于检测文本中命名实体(如人名、地名、公司名等)的一种技术。它也被称为实体识别、实体提取或实体分块。NER的目标是检测并标记这些名词,以便能够自动提取文档中提到的现实世界地点列表。
一个典型的NER模型包含以下几个部分:
名词短语识别:此步骤涉及使用依存句法分析和词性标注从文本中提取所有名词短语。
短语分类:在此分类步骤中,将上述步骤中提取的所有名词短语分类到它们各自的类别中。为了消除地点的歧义,可以使用Google Maps API,而识别人名或公司名则可以利用DBpedia、Wikipedia等开放数据库。此外,还可以结合不同来源的信息创建查找表和字典。
实体消歧:有时实体可能会被错误分类,因此在结果之上创建一个验证层是有用的。知识图谱可以用于此目的。一些流行的知识图谱包括Google知识图谱、IBM Watson和Wikipedia等。
考虑以下句子:“蓝色单元格代表名词。其中一些名词描述了现实世界中的事物。例如,从上述内容中,以下名词代表地图上的实体地点:‘伦敦’、‘英格兰’、‘英国’。如果能够检测到这一点,那将是一件大事!有了这些信息,就可以自动提取文档中提到的现实世界地点列表,借助NLP的帮助。”
因此,NER的目标是检测并标记这些名词,使它们与它们所代表的现实世界概念相对应。当通过NER标记模型运行句子中的每个标记时,句子看起来像这样:
正如可以简单地观察到的,在阅读特定文本后,自然能够识别命名实体,如人、值、地点等。例如,考虑以下句子:“Sundar Pichai,Google Inc.的首席执行官,在加利福尼亚的街头行走。”从上述句子中,可以识别出三种类型的实体:(命名实体)(“人”:“Sundar Pichai”),(“组织”:“Google Inc.”),(“地点”:“加利福尼亚”)。
但是要让计算机做同样的事情,首先需要帮助它们识别实体,以便它们可以对它们进行分类。因此,可以借助机器学习和自然语言处理(NLP)来实现。
NLP:它研究语言的结构和规则,并形成能够从文本和语音中提取意义的智能系统。
机器学习:它帮助机器学习和随着时间的推移而改进。
要学习什么是实体,NER模型需要能够检测一个词或一系列词,它们形成一个实体(例如加利福尼亚),并决定它属于哪个实体类别。因此,作为最后的步骤,可以说任何NER模型的核心是一个两步过程:检测一个命名实体,对实体进行分类。
正如在上一部分讨论的,命名实体识别(NER)将帮助轻松识别文本中的关键组成部分,如人名、地点、品牌、货币值等。从文本中提取主要实体有助于对非结构化数据进行排序并检测重要信息,这在处理大型数据集时至关重要。
让讨论一些有趣的NER应用案例:
客户支持:在客户支持票证中,处理的是日益增长的票证数量,可以使用命名实体识别技术来更快地处理客户请求。从业务角度来看,如果自动化重复的客户服务任务,例如对客户的问题和查询进行分类,那么它节省了宝贵的时间。因此,它有助于提高解决率并提高客户满意度。
从客户反馈中获得洞察:对于几乎所有基于产品的公司来说,在线评论是获取客户反馈的重要来源,因为它们可以提供关于客户喜欢和不喜欢产品的丰富见解,以及需要改进的业务方面,以增加业务。因此,这里可以使用NER系统来组织所有客户反馈并指出反复出现的问题。
简历摘要:在招聘新员工时,招聘人员花费许多小时浏览简历,寻找合适的候选人。每份简历几乎包含相同类型的信息,但它们的组织方式和格式不同,因此这成为非结构化数据的经典例子。因此,在这里,借助实体提取器,招聘团队可以立即提取有关候选人的最相关信息,从个人信息如姓名、地址、电话号码、出生日期和电子邮件等,到与他们的培训和经验相关的信息,如认证、学位、公司名称、技能等。
如果正在处理业务问题陈述,并且认为业务可以从NER中受益,那么可以轻松地使用以下优秀的开源库:
NLTK
、SpaCy
、Stanford NER
。
每个库都有其自己的优缺点,可以通过参考上述链接来探索。
还可以查看之前的博客文章。
前数据科学博客文章。