[发明专利]基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统有效
申请号: | 201410150855.2 | 申请日: | 2014-04-15 |
公开(公告)号: | CN103955489B | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 蔡毅;蔡志威;王涛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 特征 权重 量化 海量 短文 分布式 knn 分类 算法 系统 | ||
技术领域
本发明属于文本分类技术领域,涉及一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。
背景技术
随着互联网的高速发展,用户生成的电子文档及资源数目日益增长。文本分类技术成为处理和组织海量文档数据的关键技术。特别是随着微型博客和各类用户评论等短文本数据在互联网范围内的大量出现,有关短文本的相关研究逐步受到人们的关注。分本分类算法一般包括:文本预处理、文档的表示以及分类器的选择和训练。具体来说,文本预处理主要是将文本进行分词切割,并将其中对于语义表达无用的停词去除。文档表示是为了降低文档的复杂性,使其便于后续步骤的处理,将文档的文本格式转成向量格式。向量中的每个特征将被赋予一个权重用来表示其在分类贡献度,对特征进行恰当的权重量化处理能够有效地提高分类算法的分类精度。最后,采用相应的分类算法对重新表示后的文档进行训练,并对未分类的文档进行类别预测及分类。
目前,对于文本分类处理方法大多是针对长文本分类提出的。所谓长文本是指篇幅较长,包含了较多内容的文本文件。不同于长文本,短文本具有关键词特征稀疏、语境不完整和语义信息模糊的特点,使得传统的文本表示方法在短文本处理时难以较好地量化特征在分类时的有用性。
此外,随着大数据时代的到来,对海量数据处理的实时性、可靠性、可扩展性等有了更高的要求。在这种情况下,Hadoop、Spark等海量数据处理平台应运而生。然而,传统的算法大多数都是在单机环境下进行数据处理,尚未有效地扩展到并行、分布式计算平台,使之能适应大数据处理能力的需求。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法。
本发明的另一目的在在于,提供一种基于信息熵特征权重量化的海量短文本分布式KNN分类系统。
为了达到上述第一目的,本发明采用以下技术方案:
基于信息熵特征权重量化的海量短文本分布式KNN分类算法,包括下述步骤:
S1、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法;
S2、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合;
在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的结点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算。在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本;
在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。
优选的,步骤S1中,对于面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为:
S111、初试化特征-类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);
S112、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);
S113、计算特征在训练数据集中的熵值:
其中p(t,ci)=f(t,ci)/f(ci),n为类别的总数目;
S114、采用逻辑斯蒂方程计算特征的分类贡献度:
其中,threshold是归一化阈值。
优选的,面向非均匀类分布数据、基于平衡熵的特征权重量化子方法,考虑到类之间文档数量的不平衡性,在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重,包括以下步骤:
S121、初始化特征-类别分布矩阵,统计每个特征w在各个类ci中出现词频f(t,ci);
S122、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410150855.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种橡胶制品生产工艺流程与自动流水线
- 下一篇:交联聚乙烯绝缘电缆
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置