[发明专利]一种半监督学习的小样本文本分类方法和系统在审
申请号: | 202111503834.0 | 申请日: | 2021-12-09 |
公开(公告)号: | CN114036947A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 张伟文;翁茂彬;叶海明 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 学习 样本 文本 分类 方法 系统 | ||
本发明提供了一种半监督学习的小样本文本分类方法和系统,涉及半监督文本分类领域,包括步骤:S1、获取待分类文本;S2、将待分类文本输入预先训练完成的查找表,查找表将待分类文本映射为文本表征;S3、将文本表征输入多层感知器得到文本标签,文本标签作为文本分类结果。本发明通过查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
技术领域
本发明涉及半监督文本分类领域,更具体地,涉及一种半监督学习的小样本文本分类方法和系统。
背景技术
随着科技的发展,互联网中的数据量有着指数级的增长。面对其中的海量文本,智能处理技术可以节约计算资源,提升处理效率。文本分类是信息检索和挖掘的基础技术,在管理文本数据中起着至关重要的作用。
近年来,文本分类已逐渐从浅层学习模型变为深层的深度学习模型。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,并自动为文本挖掘提供了语义上有意义的表示形式。因此,大多数文本分类研究工作都基于深度神经网络(DNN)。
然而,现有的基于深度学习的文本分类方法需要收集足够的训练数据并人工标记标签,耗时耗力。而且,对于一些领域的文本数据进行文本分类,需要收集专门的数据集,难以使所有数据都带有标签。
现有技术公开的文本分类模型的训练方法和文本分类方法,通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器,对多个不同任务下的私有特征提取器和分类器进行同时训练,得到训练后的文本分类模型;但该方法在数据量小、数据标签不全的条件下无法进行训练,需要收集大量的训练数据并人工标记标签,训练成本高。
发明内容
本发明为克服上述技术问题,提供一种针对数据量小、数据标签不全的文本数据进行文本分类的半监督学习的小样本文本分类方法和系统。
本发明技术方案如下:
一种半监督学习的小样本文本分类方法,包括以下步骤:
S1、获取待分类文本;
S2、将待分类文本输入预先训练完成的查找表,通过查找表将待分类文本映射为文本表征;
S3、将文本表征输入多层感知器得到文本标签,将文本标签作为文本分类结果,完成对小样本文本的分类。
本技术方案提出了一种半监督学习的小样本文本分类方法,利用查找表获取待分类文本的文本表征,之后多层感知器根据文本表征得到文本标签作为文本分类结果,针对数据量小、数据标签不全的文本数据进行文本分类的情况也能取得较好的分类效果,不需要对大量的文本数据进行人工标注,节约人工标记成本,能够在各类数据数量和数据标签标注情况的不同场景下灵活应用。
进一步地,所述变分自编码器包括:编码器、批归一化层、标量层、解码器;
编码器、批归一化层、标量层、解码器依次连接;所述编码器和解码器均采用门控卷积神经网络。
进一步地,训练查找表包括步骤:
S21、将文本数据集输入到初始的查找表,通过初始的查找表将文本映射为矩阵,所述矩阵为初始的文本表征;
S22、将初始的文本表征输入到变分自编码器的编码器中进行学习,输出编码器学习到的平均数和标准差;
S23、将平均数和标准差分别输入批归一化层,对其进行归一化,然后输入到标量层;
S24、使用经过批归一化层和标量层处理的平均数和标准差,按照以下公式计算隐码z;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111503834.0/2.html,转载请声明来源钻瓜专利网。