[发明专利]一种文本分类方法有效
申请号: | 202110520242.3 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113344031B | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 张雷;杨竞潮 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 | ||
1.一种文本分类方法,其特征在于,包括以下步骤:
(1)构建一个基本模型训练集,将由待分类文本、正样本与负样本组成的训练数据作为基本模型训练集中的一条数据,所述的正样本为待分类文本所属的类目标签,记为正类目标签,负样本为从基本模型训练集中随机抽取的多个类目标签,记为负类目标签;将待分类文本、正类目标签和多个负类目标签分别输入用于文本分类的预训练模型中,预训练模型输出得到分别与待分类文本、正类目标签和多个负类目标签相对应的向量,对于同一个待分类文本,正类目标签和多个负类目标签的比例为1:(3~10);
(2)分别计算待分类文本与正类目标签之间的欧式距离d(a,p)、待分类文本与负类目标签之间的欧式距离d(a,n)和正类目标签与负类目标签之间的欧式距离d(p,n);
(3)根据步骤(2)的欧式距离,得到基于度量学习的三元组损失函数:
其中,margin是一个超参数,要求待分类文本到负类目标签的欧式距离d(a,n)与待分类文本到正类目标签的欧式距离d(a,p)之差大于该超参数,margin的取值为1;
(4)利用步骤(3)的损失函数Triangle Triplet Loss,对步骤(1)的预训练模型进行微调,使损失函数Triangle Triplet Loss最小化,得到一个微调后的预训练模型,记为基本模型;
(5)构建一个由待分类文本与相应的所有类目标签组成的基本模型测试集,将基本模型测试集中的待分类文本与相应的所有类目标签输入到步骤(4)的基本模型中,得到一个文本向量和多个相应的类目标签向量,分别计算文本向量与多个类目标签向量之间的欧式距离,对欧式距离进行从小到大的排序,排序后的欧式距离中,与文本向量的欧式距离最短的类目标签向量为相应的待分类文本的类目标签,实现文本分类;
(6)从步骤(5)的排序后的欧式距离中,取出前m个类目标签,作为步骤(5)的测试集中待分类文本的类目标签候选集,记为二级模型测试集,其中m为3-10;
(7)将步骤(1)的基本模型训练集中的待分类文本、正样本与负样本输入步骤(4)的基本模型中,得到一个文本向量和多个相应的类目标签向量,分别计算文本向量与多个类目标签向量之间的欧式距离,对欧式距离进行从小到大的排序,排序后的欧式距离中,与文本向量的欧式距离最短的类目标签向量为相应的待分类文本的类目标签;
(8)从步骤(7)的排序后的欧式距离中,取出前n个类目标签,作为步骤(7)的基本模型训练集中待分类文本的类目标签候选集,其中n为3-10,将训练文本的负样本固定在前n名当中,记为二级模型训练集,对二级模型训练集中的类目标签进行判断,将前n名中的非正样本类目标签记为负样本类目标签;
(9)利用步骤(6)的二级模型测试集和步骤(8)的二级模型训练集,重复步骤(1)-步骤(4),对步骤(4)的基本模型进行微调,得到二级模型;重复步骤(5),实现最终文本分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110520242.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种夹具和操作台
- 下一篇:一种集合体嵌布辉锑矿预先富集的分选方法