[发明专利]基于深度学习的实体和实体关系识别方法及装置在审
申请号: | 201810053818.8 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108280062A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 鄂海红;宋美娜;胡莺夕;王晓晖 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系 标签 关系抽取 序列标注 词向量 配对 自然语言处理技术 标记方式 关系位置 实体位置 输入文本 文本转换 编解码 向量 预设 学习 单词 排序 输出 概率 成功 | ||
本发明公开了一种基于深度学习的实体和实体关系识别方法及装置,其中方法包括以下步骤:输入文本,并将文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。该方法采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。
技术领域
本发明涉及文本识别技术领域,特别涉及一种基于深度学习的实体和实体关系识别方法及装置。
背景技术
随着互联网的发展对文本进行自动的信息抽取变得越来越重要,一个典型的信息抽取任务包括实体识别和实体关系识别,从非结构化文本中进行自动的关系抽取形成三元组。目前的方法主要分为(1)基于规则的方法;(2)基于词典的方法;(3)基于机器学习的方法等。其中基于机器学习的方法是目前的研究热点,在机器学习方法中又主要分为了深度学习方法的有监督学习方法和基于远程监督的弱监督学习方法。
相关技术包括多种方式,如采用了一种基于文本分词,提取主题词,聚类形成子主题,构建有向图的方法来实现实体关系识别。又如,采用了一种卷积神经网路结合远程监督的方法进行实体关系识别。基于深度神经网络的实体关系抽取方法,这种方法从字符级别、关键词级别、类别特征等进行了多个特诊的提取和拼接,最后进行实体分类。基于神经网络和注意力机制的实体关系抽取模型,从实体对和句子级别形成包含实体关系的句向量,再将其进行分类。卷积神经网络结合多种自然语言特征的表示,进行实体关系分类。
然而,目前的热点方法主要分为基于深度学习的有监督学习方法和基于远程监督的弱监督学习方法,前者可以同时解决实体识别和实体关系识别的问题,即可以处理未给定实体的文本的关系抽取;后者只能解决给定实体的文本的关系抽取。因此从这一点来说基于深度学习的监督学习方法具有更好的普适性。而已有的基于深度学习的监督学习方法只考虑了从句子级别的关系分类,因此没有考虑一个句子包含多个实体关系的情况,此外也并没有处理实体关系重叠的情况。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于深度学习的实体和实体关系识别方法,该方法可以提升关系抽取结果精确度,并能够处理多种复杂情况。
本发明的另一个目的在于提出一种基于深度学习的实体和实体关系识别装置。
为达到上述目的,本发明一方面实施例提出了一种基于深度学习的实体和实体关系识别方法,包括以下步骤:输入文本,并将所述文本转换为词向量,其中,采用实体位置、实体关系和关系位置的标记方式;通过编解码的方式对所述词向量进行序列标注,以获取序列标注的词向量;对模型的输出进行第二次排序,其中,选择每个单词的概率最高的预设数量的标签作为候选,并进行标签配对,以配对成功后获取正确标签。
本发明实施例的基于深度学习的实体和实体关系识别方法,通过采用最新的标记方式来进行实体识别和实体关系识别,采用深度学习方法结合自然语言处理技术,考虑多标签和实体重叠的情况,提出全新的关系抽取解决方案,从而提升关系抽取结果精确度,并能够处理多种复杂情况。
另外,根据本发明上述实施例的基于深度学习的实体和实体关系识别方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述通过编解码的方式对所述词向量进行序列标注,进一步包括:采用双向LSTM模型,并将两个方向的LSTM网络在每个时间节点的输出进行拼接,输入到解码器的所述LSTM网络,其中,所述LSTM网络采用单向LSTM网络,对每个时间节点的隐藏状态输出做全连接网络的转换,输入soft Max选择标记。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810053818.8/2.html,转载请声明来源钻瓜专利网。