[发明专利]一种基于知识库和深度学习的实体名称提取方法有效
申请号: | 201910780471.1 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110705292B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 冯翱;陈郑淏;吴锡 | 申请(专利权)人: | 成都信息工程大学;成都智睿通拓科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 周正辉 |
地址: | 610200 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识库 深度 学习 实体 名称 提取 方法 | ||
本发明涉及一种基于知识库和深度学习的实体名称提取方法,包括获得对待匹配实体进行描述的文本,将描述文本、外部知识库及两者的结合作为训练词和实体嵌入的文本集;使用词嵌入工具得到各个词和实体的嵌入式表达。建立深度学习网络,将嵌入式表达和外部现有知识库的文本表达作为输入,输出词m对应待匹配实体的概率,采集训练数据输入到建立好的深度学习网络中对深度学习网络模型进行训练,对待匹配文本,通过计算词w和实体之间的余弦相似度得到多个匹配候选项,最后将词w和匹配候选项输入到深度学习网络中,得到匹配概率。本发明较现有技术,可以基本实现端到端的自动化匹配,具有更好的匹配准确度和效率。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于知识库和深度学习的实体名称提取方法。
背景技术
通常在新闻中提及某个实体时,描述文字与实体的标准名称会有一定相似性,某些时候使用标准名称的缩写,因此多数时候可以采用特定的相似度度量(如编辑距离等)去计算提及文字和实体名称之间的相似性,这是相对比较简单的情况。但某些情况下描述文字可能和多个不同实体对应,这就存在一个消除歧义的问题,经常需要用到上下文的语义,再结合备选实体本身的流行度进行可能性判断。最复杂的情况是文字提及和实体名称没有任何文字上的相似性,如我们经常在新闻中看到的“滴滴”,实际指代的企业主体名称为“北京小桔科技有限公司”,这需要有更多的上下文知识让二者关联起来。现有的技术方案主要包括:
方案一:在正文中仅使用实体全名进行精确匹配,只有实体名称的完整出现才作为新闻中的提及标注。该技术方案存在不足是当实体名称足够长时,完整匹配基本可以保证100%的准确率,但由于大多数情况下新闻中都不会出现完整的全名,这种方法的召回率极低。
方案二:采用手工标注,或者半自动生成加人工筛选的方式生成实体名称的常见简称,只要匹配完整名称或其中某个简称均视为对该实体的提及。该方案的缺点是召回率比第一种方法高,但生成简称的工作量极大,不管是采用手工或者半手工的方式。对于匹配简称的场景,不能保证100%的准确率,而且可能会出现多个类似实体有相同简称的情况。
方案三:使用外部知识库建立实体的文档模型,将正文中的每个词作为关键词对这些实体组成的文本集进行检索,使用基本的向量空间模型、概率模型、主题模型等,将最相似的实体作为匹配对象。相对前两种方法更灵活,根据使用信息检索模型的不同,匹配的准确率和召回率也不一样。但一般来说,这种方法还是只能解决提及文本和实体知识库中有较多的重复关键词的情况,而且不能保证在有多个备选实体前提下正确进行消歧。正文中的每个词都这样进行匹配的计算复杂度较高,而且不容易划分提及和不提及实体文本的界限。
如何提高实体的匹配准确率和效率成为自然语言处理领域亟需解决的问题。
发明内容
针对现有技术之不足,本发明提出一种基于深度学习的实体名称提取方法,其特征在于,所述方法包括:
步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;
步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;
步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;成都智睿通拓科技有限公司,未经成都信息工程大学;成都智睿通拓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780471.1/2.html,转载请声明来源钻瓜专利网。