[发明专利]基于语义等级的关系抽取方法、装置有效
申请号: | 202111409121.8 | 申请日: | 2021-11-25 |
公开(公告)号: | CN113836943B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 方酉;后弘毅;郭嘉欣 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/242;G06F16/33;G06K9/62;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 等级 关系 抽取 方法 装置 | ||
本发明公开了一种基于语义等级的关系抽取方法、装置,所述方法包括:建立与数据集领域关联的命名实体词典;使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,得到实体词汇的关系语句;所述关系抽取模型的训练过程包括:训练关系抽取模型识别训练集文本中的实体词汇与命名实体之间的关系;基于语义等级使用训练集对关系抽取模型进行实体词汇关系训练。采用上述技术方案,对于文本数据中实体词汇的有效识别,抽取结果可以完整准确的表达中文文本的整体含义。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于语义等级的关系抽取方法、装置。
背景技术
现如今,互联网上的数据量呈爆炸性增长,但大部分都是非结构化数据,对于使用者而言难以从中快速的获取有效信息。因此,将非结构化数据转换为结构化数据,实现有效信息的快速抽取成为现在重要的研究课题之一。
现有技术中通常采用的技术方案涉及命名实体识别和关系抽取,其中,命名实体识别(Named Entity Recognition,NER)作为知识图谱构建过程中的关键技术,主要完成从非结构化数据中识别实体词汇,并归类于预先定义的命名实体类型,关系抽取(RelationExtraction)的目的是判断自然语言文本中两个实体词汇之间的潜在语义关系,比如从句子“[华盛顿]是[美国]的首都”中,可以从 [华盛顿]和[美国]这两个实体词汇中抽取得到特定关系,获得关系三元组华盛顿,首都,美国。
现有技术中大部分的技术方案都是基于英文语料开展,但是中文与英文在语言学上具有较大的差异性,中文的表达方式更加多样化,并且存在大量表达相同含义的不同词汇,因此传统的关系抽取方案在中文上的效果欠佳,不能准确的从文本中识别实体词汇,不能将实体词汇归类于正确的命名实体,因而难以从文本中获取有效信息,进而在关系抽取上存在误差问题,同时关系三元组远远不能完整表达中文文本的整体含义。
发明内容
发明目的:本发明提供一种基于语义等级的关系抽取方法、装置,旨在通过建立与文本数据的领域相关联的词典,并且建立该词典的实体词汇补充机制和实体词汇归类于命名实体的判断标准,实现对于文本数据中实体词汇的有效识别,基于文本中实体词汇的语义等级和语义等级的调整方式,进行关系抽取,实现抽取结果可以完整准确的表达中文文本的整体含义。
技术方案:本发明提供一种基于语义等级的关系抽取方法,包括:建立与数据集领域关联的命名实体词典;所述命名实体词典包括命名实体和对应的实体词汇,命名实体的语义等级,以及语义等级中的命名实体匹配关系;所述数据集包括训练集;使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,得到实体词汇的关系语句;所述关系抽取模型的训练过程包括:根据命名实体词典对训练集内的实体词汇进行标注;使用训练集对关系抽取模型进行实体词汇识别训练,训练关系抽取模型识别训练集文本中的实体词汇与命名实体之间的关系;使用训练集对关系抽取模型进行实体词汇关系训练,训练关系抽取模型按照语义等级的顺序组成实体词汇的关系语句,在同一语义等级中,以出现概率最低的命名实体对应的实体词汇作为关系语句的开始,查询得到同一语义等级中匹配的命名实体对应的实体词汇,按照顺序组成关系语句,同一语义等级中的实体词汇查询完毕或没有同一语义等级中匹配的实体词汇,从上一语义等级中查询实体词汇,继续按照顺序组成关系语句。
具体的,使用实体词汇识别训练完成的关系抽取模型,对测试集进行实体词汇识别测试,若得到测试集文本中词语属于正确的命名实体的概率,比属于错误的命名实体的概率高百分之15及以上,则认定实体词汇识别训练通过;所述数据集包括测试集。
具体的,所述关系抽取模型基于序列标注算法、双向长短期记忆神经网络建立,关系抽取模型使用双向长短期记忆神经网络识别实体词汇,使用序列标注算法识别实体词汇之间的关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111409121.8/2.html,转载请声明来源钻瓜专利网。