[发明专利]一种基于冗余信息过滤的无监督句子表征学习方法在审
申请号: | 202310508625.8 | 申请日: | 2023-05-08 |
公开(公告)号: | CN116523027A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 孙玉灵;陈少斌 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06N3/088 | 分类号: | G06N3/088;G06N3/0895;G06N3/08;G06F40/194;G06F16/33;G06F16/35 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 冗余 信息 过滤 监督 句子 表征 学习方法 | ||
1.一种基于冗余信息过滤的无监督句子表征学习方法,其特征在于,采用正、负样本之间的对比,以及正样本之间的重构,实现冗余信息的过滤,具体步骤如下:
步骤1:正、负样本对比
1-1:正、负样本的构造
使用暂退掩码数据增强构造正、负样本,即同一个句子被重复传入编码器得到的两个句子表示被视作一对正样本,而同一个训练小批量中的其它句子表示则被视作为负样本,所述训练采用维基百科数据集作为训练数据集进行正、负样本构造;
1-2:InfoNCE损失函数
使用下述(a)式所示的InfoNCE损失函数训练InforMin-CL模型:
其中,在一个训练小批量中,对于给定的输入,h为输入的一个正样本;为输入的另一个正样本;为负样本;N为对应训练的批量大小;τ为温度系数;
所述InforMin-CL模型以BERT和RoBERTa为基础模型,将其在维基百科数据集上训练得到的,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示;
1-3:信息最小化
令为下述(b)式所示的充分监督表示:
则有下述(c)式所示的充分自监督表示l:
令为下述(d)式所示的极小充分监督表示:
则有下述(e)式所示的极小充分自监督表示
其中,X、Z和S分别为正、负样本和自监督信号;T为下游任务所需的有用信息;I和H分别为互信息和信息熵;
将输入X以重复不同的暂退掩码输入编码器得到两个正样本21和24,并将其中一个正样本24作为自监督信号,使用下述(f)式表示的损失函数Lc作为对比操作的训练目标:
其中,是训练小批量中第i个输入的正样本;N为对应训练的批量大小;P为(Z1,Z4)的统计分布;
步骤2:重构正、负样本,过滤输入中的冗余信息
2-1:利用最小信息熵丢弃无用信息
利用自监督信号z4重构学习到的表示z1,也就是最大化对数条件似然值由于,则上述重构操作的目标为最小化H(Z1|Z2);对于任何在最大化I(z1;z2)的限制条件下,如果z2能重构出z1,则由下述(g)式得到极小充分自监督表示
然后,z1丢弃了除I(z1;z2|t)之外所有的冗余信息,其中,I(z1;z2|t)就是z1和z4共享的那部分信息中包含的冗余信息;
使用作为对数条件似然值的下界,其中,Qφ(Z1|Z2)为(Z1,Z2)的统计分布,且服从高斯分布N(Z1|Z2,σI),σI为一个对角矩阵;由此,InforMin-CL模型得到下述(h)式所示的重构目标LR:
将上述Lc和LP结合成下述(i)式所示的总的学习目标L:
L=LC+λ*LR (i);
其中,λ为超参数;
利用总的学习目标L训练InforMin-CL模型,使得学习到的句子表示过滤掉输入中的冗余信息;
2-2:句子表征学习
采用正样本作为自监督信号,通过基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,并基于此来进行句子表征学习;
步骤3:下游任务评测
训练完毕之后,使用基于无监督下游任务和有监督下游任务分别评测InforMin-CL模型学习到的表示,所述基于无监督下游任务为语义相似度任务;所述基于有监督下游任务为分类任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310508625.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置