[发明专利]一种基于深度聚类的文本分类算法在审
申请号: | 202210413836.9 | 申请日: | 2022-04-14 |
公开(公告)号: | CN114780725A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 李涛;臧砚卿 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 周湛湛 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 文本 分类 算法 | ||
本发明公开了一种基于深度聚类的文本分类算法,首先利用BERT模型获取到文本词向量,紧接着利用CNN获取文本局部特征和利用BiGRU获取上下文语境特征,再将两种特征拼接融合,加载到K‑means聚类算法中,使得特征提取更加全面,同时也提高了文本分类的准确率。
技术领域
本发明涉及一种基于深度聚类的文本分类算法,属于机器学习、深度学习及自然语言处理技术领域。
背景技术
近年来,随着互联网产业的快速形成与社交网络的迅速发展,海量的非结构化文本信息与日俱增,呈现爆炸式增长,如何快速精准地从海量文本中提取有效信息进行文本分类或文本聚类,已成为自然语言处理领域重要的研究方向。
文本分类技术是指计算机将载有信息的一篇文本映射到预先给定的某一类别或某几类别主题的技术。利用该技术可以把数量巨大但缺乏结构的文本数据组织成符合规范的文本数据,帮助人们提高信息检索的效率。现有的文本分类方法主要有三种:基于知识工程和专家系统的文本分类方法、基于机器学习的文本分类方法以及基于深度学习的文本分类方法。基于知识工程和专家系统的文本分类方法是指依靠专家经验和人工提取进行分类的方法,然而该方法已不适用于日益复杂的海量数据文本分类系统需求。基于机器学习的文本分类方法是指通过计算机学习,自主提取规则进行分类的方法。常用的机器学习方法有支持向量机(SVM,Support Vector Machine)、决策树(Decision tree)、朴素贝叶斯(Bayes)、最近邻法(Nearest Neighbor)等等。虽然这些方法在分类效果和灵活性上都比传统的文本分类模式有所进步,但是它们都忽略了词与词之间、句子与句子之间的关系,对高维数据的处理和泛化能力都比较差。而基于深度学习的文本分类方法可以解决以往算法对复杂函数的表示能力有限的问题,同时它能够解决数据量较大时分类效率不高的问题,所以该方法逐渐取代传统机器学习方法。目前,常用的深度学习模型包括卷积神经网络(CNN,Convolutional Neural Networks)、循环神经网络(RNN,Recurrent NeuralNetwork)、注意力机制等等。
同时,文本聚类也是文本挖掘中常使用的方法,它在文本分析、商务应用、网页搜索、推荐系统、生物医学等多个领域都有着十分广泛的应用。聚类算法是一种无监督学习,它将给定的数据点分到特定的组中,理论上,属于同一组的数据点应该具有相似的属性或特征,属于不同组的数据点应该具有非常差异的属性或特征。
而传统的聚类算法很依赖输入数据。但随着互联网技术的发展以及大数据的推动,数据变得越来越复杂,维度越来越高。而深度神经网络可以同时实现数据降维和提取特征的功能,所以基于深度神经网络的聚类,即深度聚类随之产生。神经网络提取的显著特征使聚类算法能够更好地进行聚类,而聚类结果又能作为监督信号对神经网络进行监督训练,二者相辅相成,使深度聚类在复杂的数据集上有很好的聚类效果。
发明内容
为了解决现有技术中存在的问题,本发明提出了一种基于深度聚类的文本分类算法,以解决文本分类过程中无法获取全面的文本特征及文本聚类中需要依赖给定的监督信息的缺陷。
为实现上述目的,本发明采用的技术方案为:一种基于深度聚类的文本分类算法,包括如下步骤:
步骤1,步骤1,获取中文新闻文本数据THUCNews,并取其中十个分类,包括体育、财经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐,将新闻文本数据和类别标签数据分为训练集、验证集及测试集,并保存在文本文件中;
步骤2,采用BERT预训练模型对前述步骤中获得的文本数据进行词嵌入,并使用不同的向量表示文本中的每一个字;
步骤3,将步骤2中获得的文本矩阵作为卷积神经网络CNN的输入,使用CNN实现文本内容局部特征的提取,所得的局部特征向量为CE;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210413836.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可高效回收型浸渗密封材料
- 下一篇:一种蓝牙AOA的定位方法及装置