[发明专利]半监督文本分类模型训练方法、文本分类方法、系统、设备及介质有效
申请号: | 202010599107.8 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111723209B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 刘江宁;鞠剑勋;李健 | 申请(专利权)人: | 上海携旅信息技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F18/214;G06F18/2415 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 薛琦;张冉 |
地址: | 201803 上海市嘉*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 监督 文本 分类 模型 训练 方法 系统 设备 介质 | ||
本发明提供一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质,该训练方法包括:获取初始样本集;对未标注样本增强得到数据增强样本;将未标注样本和数据增强样本输入文本分类模型,得到嵌入向量以及属于各分类标签的预测概率;针对各未标注样本,获取其与对应数据增强样本的嵌入向量均值作为新样本;针对各未标注样本,获取其与对应数据增强样本属于各分类标签的预测概率均值锐化后作为新样本的标签估计结果;校验新样本是否可信,若可信标记为可信任新样本;根据标注样本及可信任新样本构建置信样本集并进行扩充得到目标样本集;根据目标样本集对文本分类模型进行训练。本发明在标注样本缺乏的情况下提高文本分类的准确性。
技术领域
本发明涉及深度学习领域,尤其涉及一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质。
背景技术
机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能,机器学习方法例如监督学习方法,通常要求历史数据都有明确的标注(称为有标注数据)且要求有大量的有标注数据。然而,在很多现实任务中,由于标注数据的获取需要耗费大量的人力物力资源,因此标注数据通常是稀少的,而大量没有标注的历史数据(称为未标注数据)则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题,而半监督学习方法是该方面的两大主流技术之一。
文献10提出了用于半监督学习的插值一致性训练(ICT)方法,该方法鼓励模型对未标注数据插值的预测值与该数据预测值的插值保持一致。在此基础上,文献2【DavidBerthelot,Nicholas Carlini,Ian Goodfellow,Nicolas Papernot,Avital Oliver,andColin Raffel.Mixmatch:A holistic approach to semi-supervised learning.arXivpreprint arXiv:1905.02249,2019.】提出了MixMatch方法,该方法首先对未标注样本进行数据增强,而后猜测数据增强的未标注样本的低熵标签,最后使用文献3【Zhang,H.,Cisse,M.,Dauphin,Y.N.,and Lopez-Paz,D.mixup:Beyond empirical risk minimization.InInternational Conference on Learning Representations,2018.】公开的MixUp方法混合标注和未标注样本,以扩展训练样本。
然而,上述两种半监督方法专用于图像数据处理,并不能直接用于进行文本分类,以在标注样本缺乏的情况下提高文本分类的准确性。此外,以上两种半监督方法均未考虑模型对未标注样本预测值的置信度,可能将低熵标签不可靠的未标注样本用于进行样本扩展,影响训练模型的准确度。
发明内容
针对上述现有技术的不足,本发明提供一种半监督文本分类模型训练方法、文本分类方法、系统、设备及介质,以解决上述技术问题。
为了实现上述目的,本发明提供一种半监督文本分类模型训练方法,包括:
获取初始样本集,所述初始样本集包括若干标注样本和未标注样本,所述标注样本标注有分类标签;
对各所述未标注样本进行文本数据增强处理,得到对应的数据增强样本;
将各所述未标注样本和各所述数据增强样本分别输入预设的文本分类模型进行处理,得到各所述未标注样本和各所述数据增强样本的嵌入向量以及属于各分类标签的预测概率;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本的嵌入向量均值,并将所述嵌入向量均值作为与该未标注样本对应的新样本的嵌入向量;
针对每个所述未标注样本,获取该未标注样本与对应的所述数据增强样本属于各分类标签的预测概率均值,而后对所述预测概率均值进行锐化处理,得到锐化概率均值作为与该未标注样本对应的新样本的标签估计结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海携旅信息技术有限公司,未经上海携旅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010599107.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔离开关触头结构及隔离开关
- 下一篇:车灯用冷却装置以及汽车车灯