[发明专利]一种文本关系抽取方法、装置、设备和计算机存储介质在审
申请号: | 202210565045.8 | 申请日: | 2022-05-23 |
公开(公告)号: | CN114896402A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 曾碧卿;李砚龙;邓会敏;丁明浩;蔡剑 | 申请(专利权)人: | 华南师范大学;广东农工商职业技术学院 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 528225 广东省佛山市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 关系 抽取 方法 装置 设备 计算机 存储 介质 | ||
1.一种文本关系抽取方法,其特征在于,包括如下步骤:
S1:获取文本句包;
S2:利用Bert预训练模型对文本句包进行负训练,将文本句包分为干净句包和噪声句包,并对噪声句包进行重标签,得到优化的文本句包;
S3:利用BERT预训练模型对优化的文本句包进行正训练,得到文本句包的分类结果。
2.根据权利要求1所述的远程监督关系抽取方法,其特征在于,所述Bert预训练模型包括输入层、嵌入层、特征提取层和输出层,且步骤S2包括如下子步骤:
S21:将文本句包输入输入层,得到句子序列;
S22:将句子序列输入嵌入层,得到句子向量;
S23:将句子向量输入特征提取层,得到句包表征;
S24:将句包表征输入输出层,得到文本句包的概率分布;
S25:利用文本句包的概率分布计算负训练交叉熵损失函数,并根据负训练交叉熵损失函数判断Bert预训练模型是否满足收敛条件;当Bert预训练模型不满足收敛条件时,利用文本句包的概率分布将文本句包划分为干净句包和噪声句包,并对噪声句包进行重标签,得到改进的文本句包;
S26:重复步骤S21-S25,直到Bert预训练模型满足收敛条件时停止迭代,并将Bert预训练模型满足收敛条件时的改进的文本句包确定为优化的文本句包。
3.根据权利要求2所述的远程监督关系抽取方法,其特征在于,所述嵌入层包括词嵌入向量和位置嵌入向量,步骤S22为利用词嵌入向量和位置嵌入向量获得句子序列的句子向量。
4.根据权利要求2所述的远程监督关系抽取方法,其特征在于,所述特征提取层包括隐藏层和关系注意力层,步骤S23为:句子向量输入隐藏层,得到文本句包的关系矩阵和隐向量;将关系矩阵和隐向量输入关系注意力层,得到关系矩阵的注意力权重系数;对最后一层隐藏层的隐向量和注意力权重系数进行加权求和,得到隐向量加权表征;将关系向量和隐向量加权表征进行级联,得到文本句包的句子表征;对文本句包的句子表征进行加权求和,得到文本句包的句包表征。
5.根据权利要求2所述的远程监督关系抽取方法,其特征在于,步骤S25中,对噪声句包进行重标签为利用无监督聚类方式对噪声句包进行重标签,且包括如下子步骤:
S251:获取文本标签集,并利用无监督聚类模型对文本标签集处理,得到初始聚类中心;
S252:利用噪声句包在特征提取层的最后一层输出的隐向量表征计算噪声句包的初始特征向量;
S253:利用学生t分布计算初始特征向量和初始聚类中心的相似度;
S254:利用初始特征向量和初始聚类中心的相似度计算KL散度,并根据KL散度判断无监督聚类模型是否满足收敛条件,当无监督聚类模型不满足收敛条件时,对初始特征向量和初始聚类中心进行更新,并重复步骤S253-S254,直到无监督聚类模型满足收敛条件,停止迭代,得到优化的特征向量和优化的聚类中心;
S255:利用学生t分布计算优化的特征向量和优化的聚类中心的相似度,并将相似度大于相似度阈值的优化的聚类中心的标签确定为噪声句包的标签。
6.根据权利要求2所述的远程监督关系抽取方法,其特征在于,步骤S25中,利用文本句包的概率分布将文本句包划分为干净句包和噪声句包为将概率值大于或等于概率阈值的文本句包确定为干净句包;将概率值小于概率阈值的文本句包确定为噪声句包。
7.根据权利要求2-6任一项所述的文本关系抽取方法,其特征在于,步骤S3为:
S31:将优化的文本句包输入输入层,得到句子序列;
S32:将句子序列输入嵌入层,得到句子向量;
S33:将句子向量输入特征提取层,得到句包表征;
S34:将句包表征输入输出层,得到文本句包的概率分布;
S35:利用文本句包的概率分布计算正训练交叉熵损失函数,且根据正训练交叉熵损失函数和文本句包的概率分布对文本句包进行分类,得到文本句包的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学;广东农工商职业技术学院,未经华南师范大学;广东农工商职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210565045.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:表格图像处理方法和装置
- 下一篇:一种自动归档的档案库管理系统