[发明专利]一种基于冗余信息过滤的无监督句子表征学习方法在审
申请号: | 202310508625.8 | 申请日: | 2023-05-08 |
公开(公告)号: | CN116523027A | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 孙玉灵;陈少斌 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06N3/088 | 分类号: | G06N3/088;G06N3/0895;G06N3/08;G06F40/194;G06F16/33;G06F16/35 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 冗余 信息 过滤 监督 句子 表征 学习方法 | ||
本发明公开了一种基于冗余信息过滤的无监督句子表征学习方法,其特点是基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,训练使用BERT和RoBERTa为基础模型,将其在维基百科数据集上训练得到InforMin‑CL模型,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示,所述重构通过一个正样本去重构另一个正样本,以实现冗余信息的过滤。本发明与现有技术相比具有基于信息最小化原则设计的重构操作,以丢弃冗余信息,通过基于对比学习的句子表征学习模型,可贡献于所有基于对比学习的句子表征学习模型中的预训练冗余信息过滤问题,对提升模型性能有极大的帮助。
技术领域
本发明涉及基于对比学习的无监督句子表征学习技术领域,尤其是一种基于冗余信息过滤的无监督句子表征学习方法。
背景技术
近几年来,人工智能、机器学习等领域发展迅速,越来越多的领域、越来越多的任务都用到了机器学习、深度学习模型。由于训练数据缺乏,尤其是一些小众领域,很多任务难以直接在此领域收集数据集来完成模型训练。针对此问题,目前学术界和工业界普遍采取的方法是在已有的大规模数据集上训练出一个模型去学习一个通用的表示,然后将学习到的句子表示用于目标领域,从而完成相关任务。随着人工智能应用的不断深入,句子表征学习问题受到了学术界和工业界的广泛重视。
近些年来,很多句子表征学习的工作频繁运用对比学习方法来训练句子表征学习模型。例如,IS-BERT在BERT编码器的输出顶端添加一个特征抽取器并最大化局部特征与全局特征之间的互信息;CLEAR、DeCLUTER和ConSERT在其实验中尝试了多种数据增强手段来构造正负样本,并比较了各自的实验结果;Coco-LM提出使用一个额外的语言模型对已有的输入做变换,并在此基础之上构造单词级别和句子级别的两个任务来训练模型。相对于诸如skip-thought等传统的方法,这些方法取得了更优的效果。凭借着轻巧好用的暂退掩码数据增强手段,无监督SimCSE再次把无监督表征学习模型的效果提上了一个新的台阶。在此之后,有若干基于SimCSE的模型被先后提出,包括S-SimCSE、DiffCSE和DCLR等。
现有技术的这些模型应用在现实世界中还是受到了挑战。尤其,在实际应用场景中,用于模型训练的数据集,往往由于人为采集、环境干扰等因素,包含着许多冗余信息,这些冗余信息会对于下游任务产生不好的影响。然而,现有模型主要从数据增强手段、代理任务上做了各种改进,并未没有考虑到预训练数据集中的冗余信息。基于此,如何基于现有的无监督对比学习框架,设计高效、简单、通用的冗余信息过滤技术,以过滤实际预训练数据中的冗余信息,学习到更有效的句子表示,成为了十分重要的技术问题。
发明内容
本发明的目的是针对现有技术的不足而提供的一种基于冗余信息过滤的无监督句子表征学习方法,采用无监督对比学习框架,设计高效、简单、使用冗余信息过滤技术,以过滤实际预训练数据中的冗余信息,学习到更有效的句子表示,方法简便,使用效果好,有效解决了目前基于对比学习的句子表征学习模型中的预训练冗余信息过滤问题,对提升模型性能有极大的帮助,具有良好应用前景。
本发明的目的是这样实现的:一种基于冗余信息过滤的无监督句子表征学习方法,其特点是基于信息最小化原则的重构操作,对预训练数据集当中的冗余信息进行过滤,并基于此来进行句子表征学习。冗余信息的过滤部分分为两个模块:一是对比,通过将正样本与负样本进行对比,保留输入内容中有用的信息;二是重构,通过一个正样本去重构另外一个正样本,以实现冗余信息的过滤。在模型训练部分,InforMin-CL使用BERT和RoBERTa作为基础模型,将基础模型在维基百科数据集上展开训练得到最终的模型,该模型输出端的隐藏向量被全连接网络进一步映射得到的向量,作为学习到的句子表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310508625.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置