[发明专利]一种基于句子的实体名识别的方法在审

专利信息
申请号: 202110176527.X 申请日: 2021-02-09
公开(公告)号: CN112784605A 公开(公告)日: 2021-05-11
发明(设计)人: 陆晓;陈文斌;银文渊 申请(专利权)人: 柳州智视科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/284;G06F40/211
代理公司: 柳州市荣久专利商标事务所(普通合伙) 45113 代理人: 余航
地址: 545616 广西壮族自治区柳州市*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 句子 实体 识别 方法
【说明书】:

一种基于句子的实体名识别的方法,包括学习阶段:输入句子,判断句子中是否有实体名,后将句子中的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,再对每个关键字单独存储抽象句子信息;还包括识别阶段:对新句子进行分词,通过关键字查找出其对应的抽象句子,判断是否有合适的抽象句子,最后根据匹配到的最合适的抽象句子,猜测实体名。本发明依靠少量的基础数据,从句子的角度,识别出相同实体名下的各种词、字、短语的实体名,不需提前训练数据,节省大量精力、时间,即使未做过标记的没有词性的句子也不影响本发明方法性能,既方便,效果又显著。

技术领域

本发明涉及计算机信息处理技术领域,特别涉及一种基于句子的实体名识别的方法。

背景技术

在计算机对语言的处理过程中,未录入词库的实体名的识别一直是汉语自然语言处理的一大难题,偏偏汉语的实体名很多,根本无法一一录入词库,因此在自然语言处理中,准确及时地识别新的实体名称是非常重要的。常见的实体名称,例如北京大学、北京理工大学等,可录入词库,但很多不是很常见的实体名称,例如北京自动化研究所、北京外国语大学等机构名或公司名,这些实体名称太多,无法一一统计和记录,便需要在语言处理时识别出来,包括一些不常见的人名和地名,都属于实体名识别的范围,所以对汉语自然语言处理的实体名识别是非常重要和迫切的。

现有的对汉语语言处理的实体名识别大多是从词的角度上、基于大数据的机器学习方法,即现有技术通过分词以后,再进行二次实体名判断处理,便需要首先录入大量的词在实体名中的位置和作用,例如:北京自动化研究所,分词之后是——北京、自动化、研究所,再分别判断北京、自动化、研究所是否存在实体名的可能,如果存在,则判断组成的实体名是否合理,整个过程都有对应的机器学习算法计算,通过统计学方法计算出组成实体名的概率,概率足够高,便可认为是实体名。这种实体名的识别方法虽然可以识别出很多实体名,但是都需要大量的统计数据,即必须要事先收集足够的数据,根据需要标记数据,之后才能训练数据,训练好的数据才能用于识别实体名,并且依靠分词的效果才得以实现,对于没有录入的属于实体名的新词,便没有办法识别出来,范围较小,运行起来不够方便。

发明内容

本发明要解决的技术问题是:提供一种不需要大量数据且不需要提前训练的、从句子的角度来对实体名进行识别的方法,以克服已有技术所存在的上述不足。

本发明采取的技术方案是:一种基于句子的实体名识别的方法,包括以下步骤:

(一)学习阶段:

A.学习开始,输入句子,判断句子中是否有实体名,若是,进入步骤B,若否,进入步骤D;

B.将句子中识别出的实体名逐个替换成其所对应的抽象事物,将没有抽象事物的部分作为关键字,所述抽象是对物体的一种概括,包括实体名,不属于实体名的也可以赋予一种抽象;

C.对每个关键字单独存储抽象句子信息,进入步骤F;

D.学习结束;

(二)识别阶段:

E.识别开始,输入新句子,对新句子进行分词,通过关键字查找出其对应的抽象句子;

F.判断是否有合适的抽象句子,若是,进入步骤G,若否,进入步骤I;

G.根据匹配到的最合适的抽象句子,猜测实体名;

H.持续猜测,判断猜测次数是否足够,若是,则猜测的结果为实体名的识别结果,进入步骤I,若否,进入步骤C;

I.识别结束。

由于采用上述技术方案,本发明之一种基于句子的实体名识别的方法具有如下有益效果:

1. 本发明通过对新句子中关键字的抽象句子进行匹配,查找出新的实体名最合适的抽象句子,进而分词截取出实体名的识别结果,从而识别出从未见过的实体名词,不同于现有技术从词的角度上识别实体名,本发明从句子的角度来识别实体名,基于一定的知识储备下,可以识别出相同实体名下的各种词、字、短语的实体名,不拘于识别的词是否录入;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柳州智视科技有限公司,未经柳州智视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110176527.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top