[发明专利]关系三元组的提取方法、装置、设备及介质在审
申请号: | 202110272414.X | 申请日: | 2021-03-12 |
公开(公告)号: | CN112989788A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王健宗;吴天博;程宁;李泽远 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/279;G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;曹勇 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关系 三元 提取 方法 装置 设备 介质 | ||
1.一种关系三元组的提取方法,其特征在于,所述方法包括:
获取待分析的文本数据;
将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组预测,所述目标关系三元组提取模型是基于编码模型、级联解码器训练得到的模型;
根据所述目标关系三元组提取模型输出的关系三元组预测结果,得到所述待分析的文本数据对应的目标关系三元组集合。
2.根据权利要求1所述的关系三元组的提取方法,其特征在于,所述将所述待分析的文本数据输入目标关系三元组提取模型进行关系三元组提取的步骤之前,还包括:
获取多个训练样本和预设关系集合,所述训练样本包括:文本样本数据、关系三元组标定数据;
从所述多个训练样本中提取一个所述训练样本作为目标训练样本;
将所述目标训练样本的所述文本样本数据输入待训练的关系三元组提取模型的所述编码模型进行编码,得到所述目标训练样本对应的目标文本编码向量;
通过所述待训练的关系三元组提取模型的所述级联解码器对所述目标文本编码向量的每个编码向量进行实体开始位置概率和实体结束位置概率的计算,得到所述目标训练样本对应的实体开始位置概率序列和实体结束位置概率序列;
通过所述待训练的关系三元组提取模型的所述级联解码器,根据所述目标训练样本对应的所述实体开始位置概率序列和所述实体结束位置概率序列进行实体识别,得到所述目标训练样本对应的待分析的实体集合;
通过所述待训练的关系三元组提取模型的所述级联解码器,针对所述目标训练样本对应的所述待分析的实体集合中的每个实体,根据所述目标文本编码向量,计算每个所述实体在所述预设关系集合中的每个关系下的尾实体开始位置概率序列和尾实体结束位置概率序列,得到所述目标训练样本对应的各个实体各自对应的尾实体开始位置概率序列集合和尾实体结束位置概率序列集合;
将所述目标训练样本的所述关系三元组标定数据、所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合输入损失函数进行计算,得到所述待训练的关系三元组提取模型的损失值,根据所述损失值更新所述待训练的关系三元组提取模型的参数,更新后的所述待训练的关系三元组提取模型被用于下一次计算所述目标训练样本的所述实体开始位置概率序列、所述实体结束位置概率序列、各个实体各自对应的所述尾实体开始位置概率序列集合和各个实体各自对应的所述尾实体结束位置概率序列集合;
重复执行所述从所述多个训练样本中提取一个所述训练样本作为目标训练样本的步骤,直至所述损失值达到第一收敛条件或迭代次数达到第二收敛条件,将所述损失值达到第一收敛条件或迭代次数达到第二收敛条件的所述待训练的关系三元组提取模型,确定为所述目标关系三元组提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110272414.X/1.html,转载请声明来源钻瓜专利网。