[发明专利]一种命名实体识别方法和系统有效
申请号: | 202110524581.9 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113158677B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 简仁贤;刘家国;吴文杰 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/30 |
代理公司: | 北京市盈科律师事务所 11344 | 代理人: | 陈晨;申晨 |
地址: | 200233 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 系统 | ||
1.一种命名实体识别方法,其特征在于,包括如下步骤:
S1、接收初始文本;
S2、按照抽取规则,抽取所述初始文本中的实体;
所述抽取规则为设置N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
当N=2时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签的第二信息列表;
当N≥3时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
3)第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
S3、将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
2.根据权利要求1所述的命名实体识别方法,其特征在于,每一个实体抽取单元均包括一个或多个实体抽取器,每个实体抽取器均包括一类实体抽取算法。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取算法为基于规则的算法、基于词典的算法、基于模型的算法、基于脚本的算法中的任意一种。
4.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取器抽取实体后,输出包含实体词、语义标签的实体列表,并将实体列表储存在临时变量中。
5.根据权利要求4所述的命名实体识别方法,其特征在于,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,将实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
6.根据权利要求5所述的命名实体识别方法,其特征在于,将实体抽取器输出的实体列表进行汇总时,若一个实体词具有若干个不同的语义标签,则保留概率最高的语义标签。
7.根据权利要求2所述的命名实体识别方法,其特征在于,所述实体抽取器抽取实体后,输出包含实体词、语义标签、实体词位置信息的实体列表。
8.根据权利要求7所述的命名实体识别方法,其特征在于,各个实体抽取单元在其所包含的一个或多个实体抽取器完成实体抽取后,基于实体词位置信息将各个实体抽取器输出的实体列表进行汇总,得到该实体抽取单元的信息列表。
9.根据权利要求8所述的命名实体识别方法,其特征在于,在将第一信息列表至第N信息列表进行合并前,将第二信息列表至第N信息列表的实体词位置信息还原为该实体词在初始文本中的位置信息,再基于实体词的位置信息合并第一信息列表至第N信息列表,得到最终结果。
10.一种命名实体识别系统,其特征在于,
包括接收模块、处理模块以及输出模块;
所述接收模块用于接收初始文本,并将初始文本传输至处理模块;
所述处理模块用于抽取实体,处理模块包括N个确定不同层次语义标签的实体抽取单元,其中,N为整数,且N≥2,N个实体抽取单元按如下规则执行:
当N=2时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第一层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第二层语义标签的第二信息列表;
当N≥3时,
1)第一个实体抽取单元的执行规则为:针对初始文本抽取实体,获得包含实体词、第一层语义标签的第一信息列表,将初始文本和第一信息列表传递给第二个实体抽取单元;
2)第二个实体抽取单元至第N-1个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第K-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第K层语义标签的第K信息列表,将新的文本和第K信息列表传递给第K+1个实体抽取单元,其中,K为整数,且2≤K≤N-1;
3)第N个实体抽取单元的执行规则为:将接收到的文本中的实体词替换为第N-1层语义标签形成新的文本,并针对新的文本抽取实体,获得包含实体词、第N层语义标签的第N信息列表;
所述输出模块用于将第一信息列表至第N信息列表进行合并得到最终结果,并输出该最终结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110524581.9/1.html,转载请声明来源钻瓜专利网。