[发明专利]一种文本分类方法有效

专利信息
申请号: 202110520242.3 申请日: 2021-05-13
公开(公告)号: CN113344031B 公开(公告)日: 2022-12-27
发明(设计)人: 张雷;杨竞潮 申请(专利权)人: 清华大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 罗文群
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 分类 方法
【说明书】:

发明属于深度学习与算法领域,尤其涉及一种文本分类方法。本发明在构建基于度量学习的三元组损失损失函数时,计算待分类文本与正类目标签之间的欧式距离、待分类文本与负类目标签之间的欧式距离和正类目标签与负类目标签之间的欧式距离,并得到三元组损失函数,同时加入了一个“粗筛‑精筛”的过程。本发明方法基于样本三元组,在优化待分类文本与正样本和负样本的距离之差的同时,加入一个系数同时优化正样本与负样本之间的距离,构造了两层的级联模型,相比于单层模型,有效提高了分类准确率。本发明的文本分类方法,应用简便,易于推广,除了文本分类任务也可以应用在计算机视觉等多种领域。

技术领域

本发明属于深度学习与算法领域,尤其涉及一种文本分类方法。

背景技术

在文本分类任务中,当已知文本类目的标签时,可以采用度量文本与标签距离的方法来衡量。这样和多分类模型相比,可以引入标签的文本信息,提升分类的准确率。

分类任务使用度量学习方法,计算待分类的文本与各个类目标签通过预训练模型后转化为向量的距离,将距离进行排序,距离最短的类目标签即为该文本所属的类目。

度量学习的损失函数当前主要采用三元组损失(Triplet Loss),将每一段待分类的文本作为锚点,它所属的类目标签作为正样本,在其他类目标签中随机选取一个作为负样本。让文本对应的向量尽可能靠近正样本类目标签对应的向量,并远离负样本类目标签对应的向量,通过这种方法对预训练模型进行微调。损失函数:

TripletLoss=(d(a,p)-d(a,n)+margin)+

但Triplet Loss损失函数的表达式仅仅考虑到文本与正样本距离尽可能近,与负样本尽可能远,实际上也希望同时满足于类目标签之间的距离尽可能远,并将其加入损失函数中。

根据这一要求,提出了四元组损失(Quadruplet Loss)的改进:

QuadrupletLoss=(d(a,p)-d(a,n1)+α)++(d(a,p)-d(n1,n2)+β)+

四元组损失加入了新的负样本n2,让两个负样本之间的距离尽可能远,另外弱推动项中也能使待分类文本的向量与正样本向量尽可能近。但四元组损失在一些数据集上表现不佳,分析后发现弱推动项的比重比强推动项还要大,即文本与正样本之间的距离往往比正负样本之间的距离更大,因此影响了强推动项的优化过程。

因此需要考虑一种方法,既能优化负样本之间的距离,也不影响强推动项的优化过程。

发明内容

本发明的目的提出一种文本分类方法,在优化三元组损失的过程中,同时优化正负样本之间的距离,达到提升文本分类任务的准确率的目的。

本发明提出的文本分类方法,在构建基于度量学习的三元组损失损失函数时,计算待分类文本与正类目标签之间的欧式距离d(a,p)、待分类文本与负类目标签之间的欧式距离 d(a,n)和正类目标签与负类目标签之间的欧式距离d(p,n),三元组损失损失函数的表达式为:

其中,margin是一个超参数,要求待分类文本到负类目标签的欧式距离d(a,n)与待分类文本到正类目标签的欧式距离d(a,p)之差大于该超参数,margin的取值为1;

同时加入了一个“粗筛-精筛”的过程,先从多个类目中选出前m名,再从m个类目中选出1个作为文本分类结果。

本发明提出的文本分类方法,其特点及优点是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110520242.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top