[发明专利]一种MapReduce并行化大数据文本分类方法有效
申请号: | 201510297189.X | 申请日: | 2015-06-02 |
公开(公告)号: | CN104866606B | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 朱信忠;徐慧英;赵建民;陈远超 | 申请(专利权)人: | 浙江师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 赵芳 |
地址: | 321004 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 mapreduce 并行 数据 文本 分类 方法 | ||
一种MapReduce并行化大数据文本分类方法,包括如下步骤:第一步:建立用于文本分类的基准测试数据集,进行数据预处理,包括分词、去停用词、词根还原;将该基准测试数据集随机划分为训练文本和测试文本,将所述基准测试数据集采用向量空间模型建立文本表示模型;第二步:根据上述文本表示模型采用CDMT对所述基准测试数据集进行特征选择;第三步:采用贝叶斯分类器对所述基准测试数据集进行训练学习,得到分类结果。本发明提供一种分类性能良好、区分度较高的MapReduce并行化大数据文本分类方法。
技术领域
本发明涉及计算机领域,更具体地涉及机器学习及大数据文本分类的方法。
背景技术
伴随着互联网应用的普及,在网上传输信息更加便捷,同时网上的信息数量正在以空前速度增长。毫无疑问,研究文本分类方法的意义异常重要。曾经人们使用人工分类的方法,尽管正确率很高,可是效率低下。因为这种分类方法依靠的是个人经验,所以不同的人对同样的数据进行分类,得到的结果可能不一样,而且即便是同一个人,每次的分类也可能会存在不同。面对互联网上如今规模庞大的数据量,分类工作交由人工完成显然并不现实。因此,自动化的文本分类技术无疑是理想的解决之道。
在行业应用领域,为了应对大规模数据的处理,需要更加庞大系统的规模。作为机器学习的一个重要领域,文本分类是根据文本数据信息主题将相同主题的信息归并至一个类别,从而实现对海量数据的管理。然而,实际应用中海量数据的处理面临着一些难题,一方面,传统的文本分类技术针对单机设计,而单一的机器面临着存储容量有限和计算效率较低等问题;另一方面,集成起来的各种数据往往是大容量、多种类的大数据,分析数据是提取信息、发现知识、预测未来的关键步骤。为此,非常迫切寻求一种高效处理大数据的方式。目前,大数据的组织与处理主要是经由分布式文件处理系统来完成,主流的技术是Hadoop开源平台,它提供分布式文件处理系统HDFS以及分布式计算框架MapReduce,分别作为大数据的存储和处理的框架。
贝叶斯分类器训练阶段需计算类的先验概率及相应特征项的类条件概率。类的先验概率计算不难实现,因为计算数量少,例如样本集中一共包含m个类,那么计算m次就可以了。问题的关键在于对特征词的类条件概率计算。因为大规模的词汇量用于形成文本集,所以,用空间向量来表示文本时的维数会很大。根据Google公司在2007年时统计的数据,中文常用词汇多达34万个。可以想象一下,一个训练文本集中包含10000个词汇的话,就需要计算次的类条件概率。大数据时代,数据量不断暴增,若不进行任何处理,文本集所包含的词汇远超10000,很可能会被表示为维数巨大的向量空间模型,造成内存与运算开销浪费。
互信息在信息理论中描述整个系统通信前与通信后减少了多少不确定度,从而判断两个信号在一个消息里相互之间的依赖程度。如今,互信息在各种涉及统计信息的模型中应用非常广泛。如果两个变量计算得到越大的互信息值,那么说明两者间存在越大的统计相关性。具体到文本分类,互信息值通常被用来量度文本中特征词与不同的类别间差异性。
虽然互信息算法在特征选择时具有时空复杂度低、便于理解和计算方便等优点,但是传统的互信息算法在分类精度方面存在着一定的不足。
MI特征提取方法通过计算特征与类别的关联程度实现,能挑选出带有强类别信息的词汇作为特征。然而,如果一个特征只在某个类别中的几个文本中出现,根据MI的计算方法,这个特征将很有可能被提取出来。而这个特征在该类别中并不具有普遍性,将该特征用于表示该类别的其它文本的时候,该项的词频权值将为0。如果这类不具代表性的强类别信息词汇过多,将导致无法正确的表示大部分文档的文本信息,从而导致在分类过程中文本被错分可能性过大。很显然互信息在选择表示文本的特征词时忽略掉了词频,造成的影响便是低频词经常被选择,扩大了低频词的作用,如果加入的低频词是噪音的话,将导致分类效果大打折扣。另外,以特征与所有类别的互信息值求和也不能突出特征对类之间的区分能力,这也从一定程度上削弱了分类信息。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江师范大学,未经浙江师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510297189.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置