[发明专利]一种命名实体识别方法和系统有效
申请号: | 202110524581.9 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113158677B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 简仁贤;刘家国;吴文杰 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 陈晨;申晨 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 系统 | ||
本发明提供了一种命名实体识别方法及系统,通过多个实体抽取单元对命名实体进行识别,识别出的实体具有多层语义标签,为使用者提供了更多的信息,能提升业务应用的效果,此外,本发明将实体抽取单元进一步细分为各个实体抽取器,从而规定了实体抽取单元的组织方式、结构和执行过程,通过问题分解降低了实体识别的难度,提升了识别的效果,并且,这种结构化的方式提高了本发明系统的复用性和灵活性。
技术领域
本发明涉及自然语言处理技术领域,具体地,涉及一种命名实体识别方法和系统。
背景技术
命名实体识别是自然语言处理的基础任务之一。所谓的命名实体就是人名、机构名、地名以及其它所有以名称为标识的实体。有些命名实体比较通用,例如人名、机构、事件、地址和数字等;有些命名实体和具体的行业和领域密切相关,例如生物学领域的基因名称。命名实体识别的过程就是从文本中把这些实体识别出来,并标记上名称。
命名实体的标签是存在语义层次的。比如地名可以再细分为运动场馆、餐饮场所、交通站点等,餐饮场所又可以细分汽车站、火车站等。现有的命名实体识别方法往往忽视了实体标签的层次,在具体实现上也缺乏灵活性和复用性。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种命名实体识别方法和系统。
根据本发明的第一个方面,提供一种命名实体识别方法,包括如下步骤:
接收初始文本;
按照抽取规则,抽取所述初始文本中的实体;
所述抽取规则为设置N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
结合第一方面实施例,在一种可能的实施方式中,每一个实体抽取单元均包括一个或多个实体抽取器,每个实体抽取器均包括一类实体抽取算法。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取算法为基于规则的算法、基于词典的算法、基于模型的算法、基于脚本的算法中的任意一种。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取器抽取实体后,输出包含实体词、语义标签的实体列表,并将实体列表储存在临时变量中。
结合第一方面实施例,在一种可能的实施方式中,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,将实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
结合第一方面实施例,在一种可能的实施方式中,将实体抽取器输出的实体列表进行汇总时,若一个实体词具有若干个不同的语义标签,则保留概率最高的语义标签。
结合第一方面实施例,在一种可能的实施方式中,所述实体抽取器抽取实体后,输出包含实体词、语义标签、实体词位置信息的实体列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110524581.9/2.html,转载请声明来源钻瓜专利网。