[发明专利]一种基于元学习的大规模多标签文本分类方法在审
申请号: | 202110996966.5 | 申请日: | 2021-08-27 |
公开(公告)号: | CN113705215A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 戴新宇;汪然;苏希傲;龙思宇 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06K9/62 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 黄振华 |
地址: | 210046 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 大规模 标签 文本 分类 方法 | ||
1.一种基于元学习的大规模多标签文本分类方法,其特征在于,包括:
步骤S1:获取数据集,并将数据集按比例划分为训练集、验证集和测试集;所述数据集为样本的集合,所述样本由一段自然语言文本及其相关的标签组成;
步骤S2:随机初始化模型参数;
步骤S3:使用采样策略从训练集中采样获得若干样本,作为子任务的样本集合;基于采样获得的若干子任务由模型进行元学习;
步骤S4:元学习后的模型在原始数据集上使用监督学习方法进行微调;
步骤S5:对测试集中的测试样本进行测试,选取模型预测概率最高的若干标签作为预测结果。
2.根据权利要求1所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S3中,采样策略包括基于样本的采样策略和基于标签的采样策略。
3.根据权利要求2所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S3中,使用基于样本的采样策略,即从样本集合中无放回的均匀采样出若干样本作为子任务的样本集合。
4.根据权利要求2所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S3中,使用基于标签的采样策略,即从样本集合中均匀采样出若干标签,从标注每个标签的样本集合中均随机选取一个样本,作为子任务的样本集合。
5.根据权利要求3和4所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述均匀采样即采集到每一样本或者标签的概率相同。
6.根据权利要求2所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S3中,将使用基于样本的采样策略采样获得的样本集合以及使用基于标签的采样策略采样获得的样本集合,分别按比例划分为支撑集和查询集。
7.根据权利要求2所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S3中,将基于样本采样获得的若干子任务以及基于标签采样获得的若干子任务按照一定比例混合,使模型基于若干子任务进行元学习。
8.根据权利要求7所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,模型基于若干子任务进行元学习,包括:
步骤S31:使用二元交叉熵损失函数计算模型在支撑集上的损失函数值;
步骤S32:根据步骤S31计算的损失函数值,使用梯度下降算法更新模型参数若干步;
步骤S33:使用二元交叉熵损失函数计算经步骤S32更新后的模型在查询集上的损失函数值;
步骤S34:初始的模型根据步骤S32中查询集上的损失函数值选择使用特定的优化器进行学习。
9.根据权利要求1所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S4包括:
步骤S41:输入训练集、验证集以及元学习后得到的模型参数;
步骤S42:利用前向算法计算训练集中的样本,即根据自然语言文本预测出每个标签为正的概率;
步骤S43:使用二元交叉熵损失函数计算预测标签概率与真实标签的损失函数值;
步骤S44:计算损失函数值对于每个模型参数的梯度,使用反向传播算法更新模型参数;
步骤S45:使用特定的评估指标计算模型在验证集上的预测性能,对模型进行评估;
步骤S46:判断模型性能是否提升,如有提升则返回步骤S42继续迭代训练,否则执行步骤S47;
步骤S47:结束训练模型。
10.根据权利要求9所述的一种基于元学习的大规模多标签文本分类方法,其特征在于,所述步骤S45中,采用的评估指标为前5召回率,即选取排名前5的标签的召回率作为评估指标。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110996966.5/1.html,转载请声明来源钻瓜专利网。