[发明专利]文本实体关系抽取方法、装置及计算机可读存储介质设备有效
申请号: | 202010693018.X | 申请日: | 2020-07-17 |
公开(公告)号: | CN111881256B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 胡浩;张玉臣;周洪伟;何淼;朱红涛 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;河南金明源信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06F40/279;G06F40/30;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 实体 关系 抽取 方法 装置 计算机 可读 存储 介质 设备 | ||
本发明属于自然语言处理技术领域,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备,该方法包含:针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;通过类关系查找实体关系之间隐含内容。本发明考虑实体关系之间的隐含语义,基于点互信息PMI计算实体关系之间的相似度,不需要对训练文本中的实体关系进行人工标注,从而可以快速抽取实体关系,可以对隐含关系进行有效抽取,利用相似度对抽取关系进行归并和精简,实现对噪声数据的过滤,使关系抽取更加精确,提升关系抽取的准确率和召回率,便于实际场景应用。
技术领域
本发明属于自然语言处理技术领域,特别涉及一种文本实体关系抽取方法、装置及计算机可读存储介质设备。
背景技术
关系抽取是将非结构化和半结构化的自然语言文本转化为结构化数据,核心是判断句子中包含的实体对之间的关系。现有的关系抽取方法包括以下三种:1.有监督关系抽取:通过手工标注句子中的关系,接着抽取词法、句法、语义特征,并训练有监督分类器,利用分类器分析测试集的实体关系;2.无监督关系抽取:适用于大规模文本实体的标注,然后利用聚类技术从实体中提取关系字符串。能够抽取高数量的关系对,然而抽取的结果不易对应到知识库中。3.半监督关系抽取:通过较少的种子实例(或模板)实施bootstrap学习。将已知实例运用到大量语料中,抽取出新实例;接着用新实例抽取更多实例,并不断迭代,该方法对训练集依赖少,但抽取的结果精度不高,有时会产生语义转移。在上面三种方法中,有监督学习凭借其抽取精度高好得到了广泛应用,其中远程监督可以解决有监督学习人工标注困难的问题;这种方法不需要标注语料库的替代范式,避免了领域依赖性,并允许使用任意大小的语料库,但提取特征数据包含噪声影响了关系抽取器的提取工作。另一种基于多示例学习的方法,通过给包加标签,建立多示例分类器,并将该分类器应用于未知多示例包的预测,一定程度上缓解了噪音数据的问题。将神经网络应用在关系抽取是目前一种主流方法,然而这种方法不能充分捕捉实体之间上下文的信息,抽取结果无法显示隐含语义。
发明内容
为此,本发明提供一种文本实体关系抽取方法、装置及计算机可读存储介质设备,考虑关系间的类关系通过点互信息PMI计算实体对关系间的相似度得到类关系,进而找出关系之间的隐含内容,使文本实体关系抽取更加准确,便于实际场景应用。
按照本发明所提供的设计方案,一种文本实体关系抽取方法,包含如下内容:
针对输入文本,通过将单词获取词向量表示,以获取其中实体对语句特征;
利用点互信息PMI计算实体对关系之间相似度,并通过相似度得到类关系;
通过类关系查找实体关系之间隐含内容。
作为本发明文本实体关系抽取方法,进一步地,针对输入文本,构建用于关系抽取的神经网络模型,通过模型训练学习,以提取实体关系之间隐含内容;该模型中包含:用于将目标输入文本中单词转化为低维向量的输入层;用于获取输入文本语句特征的双向门控循环单元;用于获取句子向量表示的最大池化层,及用于单词和句子权重分配的注意机制。
作为本发明文本实体关系抽取方法,进一步地,获取词向量表示中,将单词转化为低维向量,假设给定多个单词组成的句子,句子中所有单词使用位置嵌入,每个单词用实值向量表示,单词嵌入通过嵌入矩阵进行编码,将句子中所有单词嵌入和位置嵌入进行连接,获取完整的词向量表示,通过词向量表示以提取实体对与上下文语义相关程度。
作为本发明文本实体关系抽取方法,进一步地,双向门控循环单元包含隐藏状态、重置门结构和更新门结构;将词向量表示输入双向门控循环单元,通过计算重置门结构和更新门结构产生的正反向状态特征值来获取句子高维语义信息。
作为本发明文本实体关系抽取方法,进一步地,语句特征获取包含基于单词级特征获取,假设句子包含多个单词,对对应单词设定加权值,将关系与实体对放入同一嵌入空间,将单词和关系的向量表示连接到两者之间的相关程度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;河南金明源信息技术有限公司,未经中国人民解放军战略支援部队信息工程大学;河南金明源信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010693018.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去除藜麦表面皂苷的清洗装置
- 下一篇:用于铝铸件测试的取样装置