[发明专利]三元组的校验方法、装置、设备和介质有效
申请号: | 202110594046.0 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113298160B | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 曾钢欣 | 申请(专利权)人: | 深圳数联天下智能科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/0499;G06N3/048;G06N3/045;G06N3/08 |
代理公司: | 深圳中细软知识产权代理有限公司 44528 | 代理人: | 孔祥丹 |
地址: | 518000 广东省深圳市南山区粤海街道高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三元 校验 方法 装置 设备 介质 | ||
1.一种三元组的校验方法,其特征在于,所述校验方法包括:
获取待校验三元组,随机抽样标注所述待校验三元组,得到已标注的第一三元组和未标注的第二三元组;
通过预训练模型将所述第一三元组的三元组信息嵌入为输入向量,所述第一三元组信息包括头实体、关系、尾实体和所述第一三元组所在的句子,获取所述第一三元组的标注信息,所述标注信息包括所述第一三元组是否可信,根据所述输入向量及所述标注信息训练第一二分类模型;
用训练后的第一二分类模型对所述第二三元组进行第一校验,获取所述第二三元组对应的第一校验结果,所述第一校验结果为所述第二三元组是否可信;
根据所述第一三元组、所述第二三元组和所述第一校验结果确定标注数据集,根据所述标注数据集训练第二二分类模型,用训练后的第二二分类模型对所述待校验三元组进行第二校验,得到所述待校验三元组的第二校验结果,所述第二校验结果为所述待校验三元组是否可信;
其中,所述获取待校验三元组,包括:获取文本数据,从所述文本数据中抽取待校验三元组,所述抽取为基于规则的抽取或基于句法分析的抽取;所述文本数据为由多个句子组成的文本段落;
在所述用训练后的所述第二二分类模型对所述待校验三元组进行第二校验,得到所述待校验三元组的第二校验结果之后,还包括:根据第二校验结果从所述标注数据集中获取可信的目标三元组,每个目标三元组包括目标头实体、目标关系和目标尾实体;构建所述目标头实体和所述目标关系的多个第一共现矩阵,所述第一共现矩阵为以所述目标头实体和所述目标关系为行列的对称矩阵,从所述多个第一共现矩阵中筛选出大于第一分割阈值的第一目标矩阵,将所述第一目标矩阵对应的头实体类型和关系类型进行组合,得到第一组合;构建所述目标尾实体和所述目标关系的多个第二共现矩阵,所述第二共现矩阵为以所述目标尾实体和所述目标关系为行列的对称矩阵,从所述多个第二共现矩阵中筛选出大于第二分割阈值的第二目标矩阵,将所述第二目标矩阵对应的尾实体类型和关系类型进行组合,得到第二组合;将所述第一组合和所述第二组合进行交叉组合,得到知识图谱。
2.根据权利要求1所述的校验方法,其特征在于,所述通过预训练模型将所述第一三元组的三元组信息嵌入为输入向量,包括:
通过所述预训练模型对所述头实体、所述关系和所述尾实体分别进行编码,得到所述头实体对应的第一向量,所述关系对应的第二向量和所述尾实体对应的第三向量;
依照所述第一向量、所述第二向量和所述第三向量的顺序依次进行连接,得到第一输入向量;
通过所述预训练模型对所述句子进行编码,将编码后的句子作为第二输入向量,所述输入向量包含所述第一输入向量和所述第二输入向量。
3.根据权利要求1所述的校验方法,其特征在于,所述根据所述输入向量及所述标注信息训练第一二分类模型,包括:
所述第一二分类模型根据所述输入向量将所述待校验三元组的可信程度映射到0到1之间,根据所述标注信息和映射的结果计算映射误差;
根据所述映射误差调整所述第一二分类模型的模型参数,直至所述映射的结果满足预设校验标准。
4.根据权利要求1所述的校验方法,其特征在于,所述根据所述第一三元组、所述第二三元组和所述第一校验结果确定标注数据集,包括:
将所述第一三元组和第一校验结果为可信的第二三元组作为所述标注数据集。
5.根据权利要求1所述的校验方法,其特征在于,所述预训练模型为bert、word2vec、XLnet和Albert中的任意一种。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数联天下智能科技有限公司,未经深圳数联天下智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110594046.0/1.html,转载请声明来源钻瓜专利网。