[发明专利]一种长短不一的文本在不同粒度下的文本匹配方法及装置有效
申请号: | 202111023691.3 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113688621B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 魏骁勇;谢东霖;张栩禄;杨震群 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F18/214;G06F18/22;G06N3/084;G06N3/04 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 长短不一 文本 不同 粒度 匹配 方法 装置 | ||
1.一种长短不一的文本在不同粒度下的文本匹配方法,其特征在于,包括以下步骤,
步骤1、准备数据集,对不同匹配粒度下的文本对按照匹配粒度的粗细打上标签;
步骤2、对步骤1的数据集进行数据增强,增加模型的泛化能力;
步骤3、在进行数据增强后的数据集上进行模型预训练,得到预训练模型;
步骤4、对步骤2进行数据增强后的数据集中的长文本进行截断处理,得到长文本截断之后的文本;
步骤5、设计多任务框架,不同模型训练任务之间信息还相互补充;
步骤6、对多任务框架的权重优化,继续进行神经网络模型训练;
步骤7、基于权重优化后的多任务框架进行神经网络模型结构的微调与训练,得到具备判断文本对在不同粒度下是否相似的神经网络模型,对于步骤6中的多任务模型训练任务中的任务A和任务B的样本进行加权,让模型能够重点关注那些难以学习的样本,在每次迭代的时候,对于上次被错分的样本加大其权重,而被正确分类的样本则减少其权重,最后整个模型的损失为任务A,任务B这两个任务的loss加权和,最终模型的损失函数的表达式如下;
其中和分别是任务A和任务B在每次迭代时按照步骤6中的权重计算公式计算得到,和分别是任务A和任务B的数据量,和以及和分别是任务A、B中调整样本权重的超参数,是预测为真实值的概率;
步骤8:然后将步骤2中进行数据增强后的数据集中的文本对对用连接符进行拼接,传入到步骤7中的网络模型中,将标签作为监督信息使用梯度下降的策略训练神经网络,在多次迭代过程后,获得具备判断对在不同粒度下是否相似的神经网络。
2.根据权利要求1所述的一种长短不一的文本在不同粒度下的文本匹配方法,其特征在于,步骤1包括以下步骤:
步骤1.1、准备长短不一的中文文本对数据集,包含了粗细两种匹配粒度,粗粒度的匹配只需要两个文本是属于同一话题,而细粒度的匹配要求两个文本必须描述的同一事件;
步骤1.2、每种粒度下包括三种不同长短不一的文本对——短短文本对,短长文本对和长长文本对,两种粒度下的数据集不完全一样,对不同匹配粒度下的文本对按照匹配粒度的粗细打上标签。
3.根据权利要求1所述的一种长短不一的文本在不同粒度下的文本匹配方法,其特征在于,步骤2中数据增强包括以下方法:
2.1、根据相似度的传递性规则进行增强;
2.2、不同粒度之间的增强,细粒度的匹配相比粗粒度而言条件更加严格,因此细粒度可作为粗粒度的一个增强。
4.根据权利要求1所述的一种长短不一的文本在不同粒度下的文本匹配方法,其特征在于,步骤3中:
采用开源的RoBERTa-wwm中文预训练模型,在本场景下的长短不同的文本语料库进行预训练,对步骤2中的文本使用jieba库进行中文分词处理,然后每一轮随机选择15%的进行mask,这15%中的80%进行mask,10%随即使用其他词来替换,剩下的10%不变,其中mask使用WWM策略,即对全词进行掩码,得到训练好的预训练模型;
预训练阶段的损失函数如下:
其中是样本总数,是类别的数量,是符号函数,如果样本的属于类别c则取1,否则取0,表示观测样本属于类别的概率。
5.根据权利要求1所述的一种长短不一的文本在不同粒度下的文本匹配方法,其特征在于,步骤4中:
对步骤2中的数据集中短长文本对和长长文本对中的长文本截断,这里采取提取关键句的截断方法:
4.1、首先对长文本按照分隔符进行分句;
4.2、将每个句子作为一个节点,对句子进行分词并过滤掉停用词后计算两两句子间的相似度;
4.3、构建出节点连接图,句子之间的相似度作为对应节点之间边的权重值,并设置阈值过滤掉权重值较低的边;
4.4、根据边的权重计算每个句子的权重值,然后按照连接图迭代传播各节点的权重值,直至收敛;
4.5、按照句子的权重值进行倒序排序,并选择满足长度要求的句子按照在原文本中的顺序拼接作为长文本截断之后的文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111023691.3/1.html,转载请声明来源钻瓜专利网。