[发明专利]基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统有效
申请号: | 201410150855.2 | 申请日: | 2014-04-15 |
公开(公告)号: | CN103955489B | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 蔡毅;蔡志威;王涛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统。算法主要包括对文本的预处理、用信息熵衡量特征的权重,基于信息熵的文档向量表示方法,采用索引及缓存技术的KNN分类算法,整个算法基于MapReduce计算框架的实现。本发明利用特征在训练集中的信息熵,有效地衡量文本中词对于分类的作用大小,并且算法基于MapReduce计算框架能利用大规模集群来高效地对进行海量短文本的分类处理。本发明提供了一个准确率高、运行效率高、扩展性强的海量短文本分类算法。 | ||
搜索关键词: | 基于 信息 特征 权重 量化 海量 短文 分布式 knn 分类 算法 系统 | ||
【主权项】:
基于信息熵特征权重量化的海量短文本分布式KNN分类方法,其特征在于,包括下述步骤:S1、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法;面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为:S111、初始化特征——类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);S112、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);S113、计算特征在训练数据集中的熵值:Entropy(t)=Σi=0np(t,ci)log(p(t,ci))]]>其中p(t,ci)=f(t,ci)/f(ci),n为类别的总数目;S114、采用逻辑斯蒂方程计算特征的分类贡献度:weight(t)=11+eentropy(t)-threshold]]>其中,threshold是归一化阈值;面向非均匀类分布数据、基于平衡熵的特征权重量化子方法,考虑到类之间文档数量的不平衡性,在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重,包括以下步骤:S121、初始化特征‑类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);S122、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);S123、计算特征‑类别词频与类别总词频的相对比例:f′(t,ci)=f(t,ci)/f(ci);S124、计算特征在训练数据集中的熵值:Entropy(t)=Σi=0np(t,ci)log(p(t,ci))]]>其中,n为类别的总数目;S125、采用逻辑斯蒂方程计算特征的分类贡献度:weight(t)=11+eentropy(t)-threshold]]>其中,threshold是归一化阈值;S2、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合;在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的节点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算;在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本;在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410150855.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种橡胶制品生产工艺流程与自动流水线
- 下一篇:交联聚乙烯绝缘电缆
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置