[发明专利]一种基于自监督对比学习的文本分类方法在审
申请号: | 202110406702.X | 申请日: | 2021-04-15 |
公开(公告)号: | CN113139053A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 程良伦;王德培;张伟文;李睿濠;谭骏铭 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 对比 学习 文本 分类 方法 | ||
本发明提供一种基于自监督对比学习的文本分类方法,涉及自然语言处理的技术领域,所述方法包括:获取样本文本和每个样本文本对应的类别标签;将样本文本分为训练集、验证集和测试集并构建初始分类模型;对所有样本文本进行预处理;将所有预处理后的样本文本输入初始分类模型,基于训练集中的样本文本,利用自监督对比学习方法对初始分类模型进行预训练;利用验证集中的样本文本,对预训练后的初始分类模型进行调整;利用测试集中的样本文本对调整后的初始分类模型进行测试,获得最终分类模型;将待分类文本输入最终分类模型,获得待分类结果。本发明实现了在少量具有标注的数据下快速学习,数据成本低,分类结果准确。
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种基于自监督对比学习的文本分类方法。
背景技术
目前,文本分类技术大多基于深度神经网络,利用深度神经网络对文本分类时需要大量的有标注的数据。获得大量的标注数据需要高昂的经济开销和密集的人力重复劳作,并且也难以确保标注的准确性。随着机器学习应用领域的逐渐拓展,带标签的领域数据严重匮乏。自监督学习方法在图像处理多项任务上取得了巨大进展,自监督学仅需要较少的数据和标签,就可以提高模型的泛化性能。如何将自监督学习方式运用在自然语言处理领域急需解决的问题。
2021年2月23日公开的中国专利CN112395419A中提供了一种文本分类模型的训练方法及装置、文本分类方法及装置,其中方法包括:根据样本文本集的第一样本文本和标签集确定第一向量组和第二向量组集合;将第一向量组和第二向量组集合输入词级注意力层,得到第三向量集合和第四向量集合;将第三向量集合和第四向量集合输入句级注意力层,得到与标签集相关的第一样本文本向量集;将第一样本文本向量集输入全连接层,得到第一样本文本的预测标签;基于预测标签和标签集中第一样本文本对应的第一标签组对文本分类模型进行训练,直到达到训练停止条件。该方法通过上述步骤一定程度上提高了文本分类模型的准确率,但对文本分类模型进行训练时大量、准确的样本文本和标签集,数据成本高昂;并且标签的准确性会对分类精度造成影响。
发明内容
本发明为克服上述现有技术对文本进行分类时需要大量具有标注的数据的缺陷,提供一种基于自监督对比学习的文本分类方法,可以在少量具有标注的数据下实现快速学习,对待分类文本进行分类,数据成本低,分类结果准确。
为解决上述技术问题,本发明的技术方案如下:
本发明提供一种基于自监督对比学习的文本分类方法,所述方法包括以下步骤:
S1:获取样本文本和每个样本文本对应的类别标签;将样本文本分为训练集、验证集和测试集并构建初始分类模型;
S2:对所有样本文本进行预处理;
S3:将所有预处理后的样本文本输入初始分类模型,基于训练集中的样本文本,利用自监督对比学习方法对初始分类模型进行预训练;利用验证集中的样本文本,对预训练后的初始分类模型进行调整;利用测试集中的样本文本对调整后的初始分类模型进行测试,获得最终分类模型;
S4:将待分类文本输入最终分类模型,获得待分类文本的分类结果。
优选地,所述样本文本从现有的Cnews数据集中获取。
优选地,所述获取样本文本对应的类别标签的方法包括:人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法。
优选地,所述预处理的具体方法为:
文本分句:根据标点符号对文本分句;
句子分词:对中文词语根据语义分词,英文根据空格切割单词;
去除停用词:去除对分类无明显帮助的停用词汇、标点符号及数字。
优选地,所述S3中,获得最终分类模型的具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110406702.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自行车坐垫的LOGO印刷装置
- 下一篇:显示面板