[发明专利]一种基于预训练卷积神经网络的关系抽取方法及系统有效
申请号: | 202011014318.7 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112084790B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 曹卫东;徐秀丽 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 天津市鼎和专利商标代理有限公司 12101 | 代理人: | 蒙建军 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 卷积 神经网络 关系 抽取 方法 系统 | ||
本发明公开了一种基于预训练卷积神经网络的关系抽取方法及系统,属于数据处理技术领域,其特征在于,一方面利用预训练模型提取目标实体的语义信息,另一方面使用卷积神经网络提取句子级的语义信息;具体为:先对数据集进行处理,在文本句子的开头、结尾以及实体前后加入特殊标签,识别出一个句子和两个目标实体,然后将处理好的数据输入预训练模型、卷积神经网络模型,提取目标实体和句子的语义,将获取的句子语义、实体语义、标签语义连接,通过softmax分类器获取目标实体之间的关系。本发明通过预训练和神经网络可以分别提取实体级和句子级的语义信息,在没有使用任何自然语言处理工具的情况下,提高了关系抽取的准确率。
技术领域
本发明属于数据处理技术领域,特别是涉及一种基于预训练卷积神经网络的关系抽取方法及系统。
背景技术
实体关系抽取是一项从非结构化文本中提取信息的任务,其目的是对非结构化的文本中所蕴涵的实体语义关系进行挖掘处理,从而整理成三元组REL(e1,e2)存储在数据库中,为之后的智能信息检索和语义分析提供了一定的支持和帮助。关系抽取任务可以是一种特殊的分类任务。分类任务是指通过对文本做特征抽取,然后根据待预测的关系训练多分类模型,每种关系都是一个特定的类别。关系抽取任务可以更进一步的将关系抽取算法分为有监督关系抽取算法、boostrap关系抽取算法、无监督关系抽取以及远程监督关系抽取算法。
1、有监督关系抽取:采用有监督学习的思想,利用人工标注的语料来训练模型,学习句子的句法和语法语义特征,然后基于训练好的模型来做关系抽取。有监督的关系抽取往往准确率和召回率都是比较高的,但是其需要人工标注的训练数据,而标注的成本往往是比较高的。所以其很难扩展大新的领域,只能在一些小规模的垂直领域有很好的落地。
2、boostrap关系抽取就是基于boostraping的思想,首先利用少量的种子实例或模板来为每种关系标注少量的种子实体对,基于这些实体对在文本语料库中抽取相关的句子集合,基于这些句子抽取表达关系的模式,一次循环迭代,即“滚雪球”式的关系抽取。boostrap的方法可以较少模型对标注数据的依赖,但是这种方法也容易产生语义漂移的现象,同时抽取结果的准确率较低也是一个需要迫切解决的问题。
3、无监督关系抽取是指通过聚类等方法抽取实体之间的关系字符串。这种方法可以抽取非常大量的关系对,但是抽取结果很难映射到知识库中。
4、远程监督关系抽取。为了解决有监督关系抽取对人工标注预料的过于以来的问题,2009年Mintz提出了远程监督关系抽取的思想,如果一个实体对在知识库中国存在某种关系,那所有包含该实体对的句子都存在这种关系。基于这种假设就可以完成对文本的远程标注,然后再使用类似有监督学习的思想来训练学习。远程监督关系抽取降低了模型对人工标注语料的依赖,为大规模跨领域的关系抽取提供了实现的可能。自该思想被提出依赖,工业和学术界都在做持续深入的研究,并已取得了很不错的效果。
发明内容
技术问题
本发明要解决的技术问题是传统关系抽取方法准确率不高,依赖人工标注且未能充分利用句子和目标实体语义的问题,提供一种预训练卷积神经网络关系抽取方法。该方法在将文本输入到预训练模型(Bidirectional Encoder Representation fromTransformers,BERT)进行微调之前,首先在目标实体之前和之后插入特殊标记,以便识别两个目标实体的位置并传输信息进入BERT模型,从BERT模型中定位两个目标实体在输出嵌入中的位置。然后使用它们的嵌入以及句子编码(在BERT设置中嵌入的特殊字符[CLS],[SEP])输入到CNN提取句子级别的语义信息,并将获得的标签向量,实体向量和句子向量通过全连接神经网络和Softmax分类器中进行关系抽取。它能够捕捉句子和两个目标实体的语义,以更好地适应关系抽取任务。
技术方案
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011014318.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种汽车轴承用密封圈材料制备方法
- 下一篇:一种脱敏糊剂及其制备方法和用途