[发明专利]复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质有效
申请号: | 201911083955.7 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110889276B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 杨家兵;高怀恩;张学习;龙土志;董海涛 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F16/951;G06N3/0455;G06N3/0464;G06N3/084 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 复数 融合 特征 提取 指针 抽取 三元 信息 方法 系统 计算机 介质 | ||
本发明提供一种复数融合特征提取指针式抽取三元组信息的方法、装置及计算机设备,包括以下步骤:S1:获取文本和对应三元组SPO标签;S2:训练获得每个字的字向量;S3:将文本中每个字按字向量输入网络中训练完成特征提取;S4:将提取好的特征输入到指针模型训练;S5:用训练好的模型抽取三元组SPO。本发明提供一种全新的模型抽取文本中的三元组,采用复数融合特征向量后,依次根据其主体S和客体P“指针”,训练指针网络模型,然后用训好的模型抽取出目标中所有三元组。
技术领域
本发明涉及文本特征提取和信息抽取领域,更具体地,涉及一种复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质。
背景技术
为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们从海量信息源中迅速找到真正需要的信息,所有的海量信息都是由每一句话组成,而每句话都是由若干个“主语-谓语-宾语(主体S,客体O和它们两之间的关系P)”三元组组成。随便去百度百科找一句话如:“XX技术有限公司是一家生产销售通信设备的民营通信科技公司,于1987年正式注册成立,总部位于中国广东省深圳市龙岗区。”,在这句话中,所有的三元组为{S:“XX技术有限公司”,O:“1987年”,P:“成立时间”}和{S:“XX技术有限公司”,O:“广东省深圳市龙岗区”,P:“总部地点”}。如何高效准确无误的抽取出网上文本的关键信息一直是该领域的一大挑战。目前大多数深度学习方法中,一类是联合抽取,输入一个句子,通过实体识别和关系抽取联合模型,该联合模型把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题,然后通过一个端对端的神经网络模型直接得到三元组,这种方法可以一步到位,但是可能会有更复杂的结构。另一类是两步走方法,输入一个句子,首先进行命名实体识别,然后对识别出来的主体S和客体O进行两两组合,再进行系p抽取,得到(s,o)组合对应的关系p分类,最后把存在实体关系的三元组作为输入,最后保存所有的三元组。
发明内容
针对的现有技术中深度学习不能抽取出所有的三元组,因为根据序列标注策略,不支持实体关系重叠的情况,而两步走的抽取方法不能有效抽取“一个S、多个(P,O)”和同一对(S,O)也可能对应多个P的形式的问题,本发明提供一种复数融合特征提取指针式抽取三元组信息的方法。
一种复数融合特征提取指针式抽取三元组信息的方法,包括以下步骤:
S1:从各类文本中获取句子和对应的三元组标签,所述的三元组标签为主体S、客体O和关系P;
S2:将每个句子编码成向量格式,通过词位置Embedding层训练获得每个字的字向量;
S3:将句子中每个字按字向量输入特征提取网络中训练完成特征提取,得到每句话的特征向量;
S4:将每句话的特征向量输入指针模型中训练;
S5:用训练好的的模型,抽取出目标中所有S主体;根据所有的主体S指引,抽取出对应的所有关系P;再根据(S,P)所有组合指引抽取出所有O客体,其抽取出的目标与标签具有一一对应的关系。
在一种优选方案中,所述的步骤S1中通过网络爬虫和人工批注分别获得句子和对应的三元组。
在一种优选方案中,在所述的S2的具体步骤如下:
S21.将所有句子中的每个字符进行编码,不用编号对应不同的字符;
S22.确定一固定序列长度X,句子长度超过100时截断至长度为100;若不足句子长度不足100,则在句子后补0直至句子长度为100,形成被计算机识别的句子向量;
S23.对步骤S22所得的句子向量置于词位置编码层Embedding层进行编码,得到词位置编码的字向量。
在一种优选方案中,所述的S3的具体步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911083955.7/2.html,转载请声明来源钻瓜专利网。