[发明专利]一种文本分类方法有效
申请号: | 202110520242.3 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113344031B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 张雷;杨竞潮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 | ||
本发明属于深度学习与算法领域,尤其涉及一种文本分类方法。本发明在构建基于度量学习的三元组损失损失函数时,计算待分类文本与正类目标签之间的欧式距离、待分类文本与负类目标签之间的欧式距离和正类目标签与负类目标签之间的欧式距离,并得到三元组损失函数,同时加入了一个“粗筛‑精筛”的过程。本发明方法基于样本三元组,在优化待分类文本与正样本和负样本的距离之差的同时,加入一个系数同时优化正样本与负样本之间的距离,构造了两层的级联模型,相比于单层模型,有效提高了分类准确率。本发明的文本分类方法,应用简便,易于推广,除了文本分类任务也可以应用在计算机视觉等多种领域。
技术领域
本发明属于深度学习与算法领域,尤其涉及一种文本分类方法。
背景技术
在文本分类任务中,当已知文本类目的标签时,可以采用度量文本与标签距离的方法来衡量。这样和多分类模型相比,可以引入标签的文本信息,提升分类的准确率。
分类任务使用度量学习方法,计算待分类的文本与各个类目标签通过预训练模型后转化为向量的距离,将距离进行排序,距离最短的类目标签即为该文本所属的类目。
度量学习的损失函数当前主要采用三元组损失(Triplet Loss),将每一段待分类的文本作为锚点,它所属的类目标签作为正样本,在其他类目标签中随机选取一个作为负样本。让文本对应的向量尽可能靠近正样本类目标签对应的向量,并远离负样本类目标签对应的向量,通过这种方法对预训练模型进行微调。损失函数:
TripletLoss=(d(a,p)-d(a,n)+margin)+
但Triplet Loss损失函数的表达式仅仅考虑到文本与正样本距离尽可能近,与负样本尽可能远,实际上也希望同时满足于类目标签之间的距离尽可能远,并将其加入损失函数中。
根据这一要求,提出了四元组损失(Quadruplet Loss)的改进:
QuadrupletLoss=(d(a,p)-d(a,n1)+α)++(d(a,p)-d(n1,n2)+β)+
四元组损失加入了新的负样本n2,让两个负样本之间的距离尽可能远,另外弱推动项中也能使待分类文本的向量与正样本向量尽可能近。但四元组损失在一些数据集上表现不佳,分析后发现弱推动项的比重比强推动项还要大,即文本与正样本之间的距离往往比正负样本之间的距离更大,因此影响了强推动项的优化过程。
因此需要考虑一种方法,既能优化负样本之间的距离,也不影响强推动项的优化过程。
发明内容
本发明的目的提出一种文本分类方法,在优化三元组损失的过程中,同时优化正负样本之间的距离,达到提升文本分类任务的准确率的目的。
本发明提出的文本分类方法,在构建基于度量学习的三元组损失损失函数时,计算待分类文本与正类目标签之间的欧式距离d(a,p)、待分类文本与负类目标签之间的欧式距离 d(a,n)和正类目标签与负类目标签之间的欧式距离d(p,n),三元组损失损失函数的表达式为:
其中,margin是一个超参数,要求待分类文本到负类目标签的欧式距离d(a,n)与待分类文本到正类目标签的欧式距离d(a,p)之差大于该超参数,margin的取值为1;
同时加入了一个“粗筛-精筛”的过程,先从多个类目中选出前m名,再从m个类目中选出1个作为文本分类结果。
本发明提出的文本分类方法,其特点及优点是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110520242.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种夹具和操作台
- 下一篇:一种集合体嵌布辉锑矿预先富集的分选方法