[发明专利]上下位关系抽取方法、装置及计算机设备有效
申请号: | 201910506671.8 | 申请日: | 2019-06-12 |
公开(公告)号: | CN110196982B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 郑孙聪;徐程程 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下位 关系 抽取 方法 装置 计算机 设备 | ||
1.一种上下位关系抽取方法,其特征在于,所述方法包括:
获取待抽取语料;
将待抽取语料输入标签预测模型,得到所述待抽取语料的预测标签序列,所述标签预测模型是基于循环神经网络和自注意力机制,对训练样本进行训练得到,训练样本包括训练语料及所述训练语料包含的上下位关系信息;
从所述预测标签序列中,获取上下位关系字词属性对应的目标预测标签,所述上下位关系字词属性包括上位词字词属性和下位词字词属性;
由所述待抽取语料中所述目标预测标签对应的字词,构成所述待抽取语料的上下位关系信息;
配置与上位词字词属性对应的第一存储单元,及与下位词字词属性对应的第二存储单元;
在获取所述待抽取语料中各字词的预测标签过程中,按照预设存储规则,利用不同时刻得到的相应字词的目标编码向量,得到相应时刻的存储信息,具体包括:针对所述预测标签序列中所述待抽取语料的任一个字词的预测标签,若所述预测标签是所述目标预测标签,读取上一时刻写入对应存储单元的上位词存储信息或下位词存储信息,所述上一时刻是指得到所述待抽取语料的上一个相邻字词的预测标签的时刻;对所述预测标签对应的目标编码向量与读取到的存储信息进行融合处理,得到当前时刻的存储信息;若所述预测标签不是所述目标预测标签,将上一时刻写入对应存储空间的上位词存储信息或下位词存储信息,作为当前时刻的存储信息;
将所述存储信息写入与所述相应时刻得到的预测标签对应的存储单元。
2.根据权利要求1所述的方法,其特征在于,所述由所述待抽取语料中所述目标预测标签对应的字词,构成所述待抽取语料的上下位关系信息,包括:
若所述目标预测标签中存在连续的同一类预测标签,由所述连续的同一类预测标签对应的字词,组合为一个上位词或下位词;
检测所述待抽取语料中所述目标预测标签对应的字词中,是否存在多个上位词和/或多个下位词;
如果存在,获取所述待抽取语料中每个上位词对应的目标编码向量,与每个下位词对应的目标编码向量的相似度;
若所述相似度达到相似阈值,将所述相似度对应的上位词和下位词作为所述待抽取语料的上下位关系信息。
3.根据权利要求1~2任一项所述的方法,其特征在于,所述标签预测模型的训练过程包括:
获取存在上下位关系信息的训练语料,并将该训练语料及其具有的上下位关系信息作为一条训练样本;
利用不同字词属性的标签对所述训练语料进行标注,得到相应训练样本的目标标签序列,所述字词属性包括上位词字词属性、下位词字词属性及与上下位关系无关的字词属性;
获取所述训练语料的字词向量,分别经过循环神经网络和自注意力机制的学习,得到所述训练语料中相应字词的目标编码向量,所述目标编码向量表征相应字词与所述训练语料中其他字词之间的语义关联性;
读取上一时刻写入的上位词存储信息和下位词存储信息;
利用所述上位词存储信息、所述下位词存储信息,及当前时刻得到的所述目标编码向量,获取相应字词的预测标签概率;
依据所述训练语料中各字词的预测标签概率,及所述训练语料的目标标签序列进行模型训练,得到标签预测模型。
4.根据权利要求3所述的方法,其特征在于,所述利用所述上位词存储信息、所述下位词存储信息,及当前时刻得到的所述目标编码向量,获取当前时刻预测标签的字词的预测标签概率,包括:
将所述上位词存储信息和所述下位词存储信息,分别与所述目标编码向量进行融合处理;
利用得到的融合处理结果和所述目标编码向量的拼接处理结果,获取相应字词的预测标签概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910506671.8/1.html,转载请声明来源钻瓜专利网。