[发明专利]一种基于自监督对比学习的文本分类方法在审

申请号：	202110406702.X	申请日：	2021-04-15
公开（公告）号：	CN113139053A	公开（公告）日：	2021-07-20
发明（设计）人：	程良伦;王德培;张伟文;李睿濠;谭骏铭	申请（专利权）人：	广东工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督对比学习文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于自监督对比学习的文本分类方法，其特征在于，所述方法包括以下步骤：

S1：获取样本文本和每个样本文本对应的类别标签；将样本文本分为训练集、验证集和测试集并构建初始分类模型；

S2：对所有样本文本进行预处理；

S3：将所有预处理后的样本文本输入初始分类模型，基于训练集中的样本文本，利用自监督对比学习方法对初始分类模型进行预训练；利用验证集中的样本文本，对预训练后的初始分类模型进行调整；利用测试集中的样本文本对调整后的初始分类模型进行测试，获得最终分类模型；

S4：将待分类文本输入最终分类模型，获得待分类文本的分类结果。

2.根据权利要求1所述的基于自监督对比学习的文本分类方法，其特征在于，所述样本文本从现有的Cnews数据集中获取。

3.根据权利要求2所述的基于自监督对比学习的文本分类方法，其特征在于，所述获取样本文本对应的类别标签的方法包括：人工标注的方法、采用辅助工具进行半自动标注的方法、采用基于规则和词典进行全自动标注的方法。

4.根据权利要求3所述的基于自监督对比学习的文本分类方法，其特征在于，所述预处理包括对样本文本分句、分词和去除停用词。

5.根据权利要求4所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3中，获得最终分类模型的具体方法为：

S3.1：基于预处理后的样本文本，获得所有样本文本的词向量表征形式；

S3.2：对词向量表征形式的所有样本文本进行特征提取；

S3.3：对特征提取后的样本文本进行池化操作，获得池化后的训练集、验证集和测试集；

S3.4：基于池化后的训练集中的样本文本，利用自监督学习方法对初始分类模型进行预训练；利用池化后的验证集中的样本文本，通过设置第一损失函数，持续对初始分类模型进行调整，当第一损失函数的取值最小时，调整完成；

S3.5：利用池化后的测试数据集中的样本文本，对调整后的初始分类模型进行测试；设置第二损失函数，当第二损失函数的取值最小时，测试完成，获得最终分类模型。

6.根据权利要求5所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3.1中，获得样本文本的词向量表征形式的具体方法为：

利用词嵌入技术对预处理后的所有样本文本进行词向量训练，将样本文本向量化编码为x_i＝{w₁，w₂，…，w_j}，其中x_i表示第i个样本文本的向量，w_j表示第i个样本文本中第j个单词的词向量。

7.根据权利要求6所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3.2中，利用多层CNN对所有样本文本进行特征提取，并根据特征将样本文本分为正类样本文本和负类样本文本。

8.根据权利要求7所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3.3中，对特征提取后的样本文本进行池化操作具体为最大池化操作。

9.根据权利要求8所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3.4中，第一损失函数为：

其中，x表示样本文本向量，x⁺表示正类样本文本向量，x_m表示第m个负类样本文本向量，N表示负类样本文本的数量，f表示编码器，f^T表示样本文本向量x的编码转置，f_m表示负类样本文本的编码结果，f⁺表示正类样本文本的编码结果，exp()表示以e为底的指数函数。

10.根据权利要求9所述的基于自监督对比学习的文本分类方法，其特征在于，所述S3.5中，第二损失函数为：

其中，C表示样本文本的类别数量，c为某个类别，y_i表示第i个样本文本标注的标签，表示第i个样本文本的预测的标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110406702.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载