[发明专利]文本关系抽取方法、装置、存储介质及计算机设备有效
申请号: | 202110569523.8 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113033209B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 蒋海云;史树明 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/332;G06N3/04;G06N3/08;G06K9/62 |
代理公司: | 北京励诚知识产权代理有限公司 11647 | 代理人: | 赵爽 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 关系 抽取 方法 装置 存储 介质 计算机 设备 | ||
1.一种文本关系抽取方法,其特征在于,所述方法包括:
根据第一训练样本集合对关系抽取模型进行学习训练,以得到所述训练好的关系抽取模型,包括:获取包含有多个第一样本的第一训练样本集合,其中所述第一样本包括第一样本正负特性、第一样本实体对、所述第一样本实体对的文本和候选关系;根据所述第一训练样本集合中每一所述第一样本的所述第一样本正负特性、所述第一样本实体对的文本和候选关系,计算所述关系抽取模型的损失函数,其中,所述关系抽取模型的损失函数公式为:
,其中,k表示所述第一训练样本集合中的第k个第一样本,yk表示第k个第一样本的正负特性,sk表示第k个第一样本中实体对的文本,rk表示第k个第一样本中候选关系的特征向量,p(sk, rk)表示实体对的文本和候选关系的匹配模型,p(sk, rk)用于判断所述候选关系是否是正确的,p(sk, rk)的输出得分位于0到1之间;基于梯度下降法对所述关系抽取模型的损失函数进行训练,以得到所述训练好的关系抽取模型;
根据第二训练样本集合对问答系统模型进行学习训练,以得到所述训练好的问答系统模型,包括:获取包含有多个第二样本的第二训练样本集合,其中所述第二样本包括第二样本实体对、所述第二样本实体对的上下文、所述第二样本实体对中头实体在所述上下文中的起始位置的得分和所述第二样本实体对中尾实体在所述上下文中的结束位置的得分;根据所述第二训练样本集合中每一所述第二样本的第二样本实体对、所述第二样本实体对的上下文、所述第二样本实体对中头实体在所述上下文中的起始位置的得分和所述第二样本实体对中尾实体在所述上下文中的结束位置的得分,计算所述问答系统模型的损失函数,其中,所述问答系统模型的损失函数公式为:
,其中,Q表示所述问答系统模型的第二训练样本集合,∈Q表示第二样本属于训练样本集合Q,表示第二样本是否可答的损失函数,表示所述问答系统模型将尾实体作为正确答案的损失函数,所述问答系统模型将尾实体作为正确答案的损失函数公式为:
,
,其中,取值为0或1,表示第二样本中的问题是否可答,Pans表示第二样本中的问题可答的得分,ls表示尾实体在上下文中的起始位置,le表示尾实体在上下文中的结束位置,表示正确答案在上下文中的起始位置为ls的得分,则表示正确答案在上下文中的结束位置为le的得分;基于梯度下降法对所述问答系统模型的损失函数进行训练,以得到所述训练好的问答系统模型;
获取目标实体对的目标文本和关系集合,所述目标实体对为用户通过计算机设备中安装的客户端、浏览器客户端或即时通信客户端上传的待预测的目标实体对,所述目标文本为包含所述目标实体对的文本,所述关系集合为预先给定的多个关系;
通过训练好的关系抽取模型预测出所述关系集合中每个关系对应的初始得分;
根据所述关系集合中每个关系对应的初始得分,从所述关系集合中选择出候选关系;
将所述候选关系输入训练好的问答系统模型进行处理,以得到所述候选关系中每个候选关系对应的问答得分,包括:基于所述目标实体对的头实体和所述候选关系的组合,自动构建所述候选关系中每个候选关系对应的符合自然语句的问题;基于所述构建的问题和所述目标实体对的目标文本,通过所述训练好的问答系统模型预测所述目标实体对的尾实体是否是与所述问题匹配的答案,以得到所述候选关系中每个候选关系对应的问答得分;
根据所述候选关系中每个候选关系对应的初始得分和问答得分,更新所述候选关系中所有候选关系的得分,以得到所述候选关系中每个候选关系对应的第一更新后得分;
获取所述关系集合中除所述候选关系之外的其余未被选中的关系对应的初始得分;
基于第二预设公式对所述其余未被选中的关系对应的初始得分进行更新处理,以得到所述其余未被选中的关系对应的第二更新后得分;
根据所述第一更新后得分和所述第二更新后得分,预测所述目标实体对在所述目标文本中的语义关系,具体为:根据所述第一更新后得分和所述第二更新后得分,对所述关系集合中的所有关系进行得分排序,从得分排序后的所述关系集合中的所有关系中选择得分大于给定阈值的关系,作为所述目标实体对在目标文本中的语义关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569523.8/1.html,转载请声明来源钻瓜专利网。