[发明专利]基于Spark的多特征结合中文文本高效聚类方法有效
申请号: | 201710777064.6 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107590218B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 蔡晨晓;毕涛;徐杨;卜京;姚娟;殷明慧 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
地址: | 210094 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 spark 特征 结合 中文 文本 高效 方法 | ||
本发明公开了一种基于Spark的多特征结合中文文本高效聚类方法,该方法利用HDFS文件系统的高容错性、高数据访问吞吐量,将大量的数据集上传到HDFS文件系统中,然后进行数据预处理,通过客户端提交到Spark集群;完成文本集预处理后,将降维后的文本分别计算语义相似度和基于词频统计的余弦相似度,然后将两种相似度进行结合,得到最终的文本相似度,利用得到的文本相似度,并结合最大距离法,进行文本聚类。本发明将语义信息和词频统计信息结合在一起,使得文本相似度的计算更加准确,同时极大减少了迭代的次数。
技术领域
本发明属于机器学习领域,特别是一种基于Spark的多特征结合中文文本高效聚类方法。
背景技术
聚类技术是机器学习领域中的一种,它主要是依据样本数据之间的差别及不同参数,将原始样本数据集划分成几种差异较大的数据类别。因此聚类的最终目标是要使得划分到相同数据簇中的不同样本之间的差异较小,而划分到不同数据簇中的样本之间的差异要较大。
文本聚类技术是聚类里面的一种,其主要是按照如下的原理:属于同一个簇的文本之间的差异性较小,而属于不同簇的文本之间差异性较大。与分类不同,聚类技术属于一类无监督的机器学习方法,它需要按照外部给定的某个性能指标,将原始样本集依据此指标进行划分,从而使得相似的文本被划分到同一个类别中。文本聚类技术一般是先按照VSM(VectorSpaceModel,向量空间模型)把原始文本数据转换成为一种高维空间中的向量,其次按照之前所述的某种性能指标将转换后的向量进行聚类分析。不同于英文文本,中文文本是按照标点符号进行划分的,所以为了能够提取到文本的关键特征,必须先对中文文本进行分词处理,其次再进行转化和聚类操作。
文本聚类的作用很广泛,它通过相关性分析将相似的文本归到同一个类别中,从而可以更好地挖掘它们之间内在的联系;其次,文本聚类还可以为自然语言处理等技术提供一些帮助;除此之外,它能够挖掘用户的兴趣模式,找出文本潜在的主题,用于信息过滤和主动推荐。
目前大多数的机器学习算法都是串行的,当数据量不大时,这种方法还是比较有效的。但随着云计算和大数据时代的来临,数据呈爆炸式的趋势增长,这使得串行算法计算效率低下,计算成本和时间成本成倍地增加,所以之前的串行单机算法已经无法满足大数据处理的要求。同时现有的并行计算资源和设备的利用率并不是很高,而且需要专门的服务器,不能将普通的PC机直接连接利用起来。Hadoop虽然可以满足一部分的大数据处理要求,但它是通过Map函数和Reduce函数来实现的,Map函数和Reduce函数之间的通信都是通过HDFS文件系统所建立的,这样会使得Hadoop读写HDFS文件系统的次数增加,从而导致网络传输的增加。而Spark平台是基于内存计算的分布式框架,它把要计算的数据和中间计算结果缓存到内存中,这样可以大大减少读写磁盘的次数,从而降低了网络传输带来的耗时和占用空间的代价。
文本聚类技术从原理上来说一般可以分为两种,分别是划分法以及层次法。其中,划分法主要考虑的是K-means聚类算法,该种算法的计算效率很高,能够处理大批量的文本集数据。然而此算法可以确保局部最优,但是不能确保全局最优,其次该方法的初始簇中心的选择是随机的,这会使得最终的聚类结果不具有稳定性。而层次法主要考虑的则是谱聚类,它的基本原理是将样本数据集看作是一棵树,每个样本是树上的一个分支,该方法依据分解形式的不同,也形成了两种结构,分别是自底往上和自顶往下。层次法的优势明显,它的计算准确度较高,然而该方法的计算速度太慢,复杂度也较高,不太适合数据量的处理。
在文本聚类领域中,目前用的最多的还是K-means算法以及基于此算法的一些改进算法。但是目前的算法普遍存在以下一些缺点:
(1)高维稀疏:目前的文本聚类算法都是基于VSM模型进行计算的,虽然这种模型非常简单,但是由于此模型是将文本表示成向量,从而导致了高维向量的产生,这就使得计算复杂度和时间复杂度的增加。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710777064.6/2.html,转载请声明来源钻瓜专利网。