[发明专利]一种基于句子的实体名识别的方法在审
申请号: | 202110176527.X | 申请日: | 2021-02-09 |
公开(公告)号: | CN112784605A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 陆晓;陈文斌;银文渊 | 申请(专利权)人: | 柳州智视科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/284;G06F40/211 |
代理公司: | 柳州市荣久专利商标事务所(普通合伙) 45113 | 代理人: | 余航 |
地址: | 545616 广西壮族自治区柳州市*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 句子 实体 识别 方法 | ||
一种基于句子的实体名识别的方法,包括学习阶段:输入句子,判断句子中是否有实体名,后将句子中的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,再对每个关键字单独存储抽象句子信息;还包括识别阶段:对新句子进行分词,通过关键字查找出其对应的抽象句子,判断是否有合适的抽象句子,最后根据匹配到的最合适的抽象句子,猜测实体名。本发明依靠少量的基础数据,从句子的角度,识别出相同实体名下的各种词、字、短语的实体名,不需提前训练数据,节省大量精力、时间,即使未做过标记的没有词性的句子也不影响本发明方法性能,既方便,效果又显著。
技术领域
本发明涉及计算机信息处理技术领域,特别涉及一种基于句子的实体名识别的方法。
背景技术
在计算机对语言的处理过程中,未录入词库的实体名的识别一直是汉语自然语言处理的一大难题,偏偏汉语的实体名很多,根本无法一一录入词库,因此在自然语言处理中,准确及时地识别新的实体名称是非常重要的。常见的实体名称,例如北京大学、北京理工大学等,可录入词库,但很多不是很常见的实体名称,例如北京自动化研究所、北京外国语大学等机构名或公司名,这些实体名称太多,无法一一统计和记录,便需要在语言处理时识别出来,包括一些不常见的人名和地名,都属于实体名识别的范围,所以对汉语自然语言处理的实体名识别是非常重要和迫切的。
现有的对汉语语言处理的实体名识别大多是从词的角度上、基于大数据的机器学习方法,即现有技术通过分词以后,再进行二次实体名判断处理,便需要首先录入大量的词在实体名中的位置和作用,例如:北京自动化研究所,分词之后是——北京、自动化、研究所,再分别判断北京、自动化、研究所是否存在实体名的可能,如果存在,则判断组成的实体名是否合理,整个过程都有对应的机器学习算法计算,通过统计学方法计算出组成实体名的概率,概率足够高,便可认为是实体名。这种实体名的识别方法虽然可以识别出很多实体名,但是都需要大量的统计数据,即必须要事先收集足够的数据,根据需要标记数据,之后才能训练数据,训练好的数据才能用于识别实体名,并且依靠分词的效果才得以实现,对于没有录入的属于实体名的新词,便没有办法识别出来,范围较小,运行起来不够方便。
发明内容
本发明要解决的技术问题是:提供一种不需要大量数据且不需要提前训练的、从句子的角度来对实体名进行识别的方法,以克服已有技术所存在的上述不足。
本发明采取的技术方案是:一种基于句子的实体名识别的方法,包括以下步骤:
(一)学习阶段:
A.学习开始,输入句子,判断句子中是否有实体名,若是,进入步骤B,若否,进入步骤D;
B.将句子中识别出的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,所述抽象是对物体的一种概括,包括实体名,不属于实体名的也可以赋予一种抽象;
C.对每个关键字单独存储抽象句子信息,进入步骤F;
D.学习结束;
(二)识别阶段:
E.识别开始,输入新句子,对新句子进行分词,通过关键字查找出其对应的抽象句子;
F.判断是否有合适的抽象句子,若是,进入步骤G,若否,进入步骤I;
G.根据匹配到的最合适的抽象句子,猜测实体名;
H.持续猜测,判断猜测次数是否足够,若是,则猜测的结果为实体名的识别结果,进入步骤I,若否,进入步骤C;
I.识别结束。
由于采用上述技术方案,本发明之一种基于句子的实体名识别的方法具有如下有益效果:
1. 本发明通过对新句子中关键字的抽象句子进行匹配,查找出新的实体名最合适的抽象句子,进而分词截取出实体名的识别结果,从而识别出从未见过的实体名词,不同于现有技术从词的角度上识别实体名,本发明从句子的角度来识别实体名,基于一定的知识储备下,可以识别出相同实体名下的各种词、字、短语的实体名,不拘于识别的词是否录入;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柳州智视科技有限公司,未经柳州智视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110176527.X/2.html,转载请声明来源钻瓜专利网。