[发明专利]基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统有效
申请号: | 201410150855.2 | 申请日: | 2014-04-15 |
公开(公告)号: | CN103955489B | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 蔡毅;蔡志威;王涛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 蔡茂略 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 特征 权重 量化 海量 短文 分布式 knn 分类 算法 系统 | ||
1.基于信息熵特征权重量化的海量短文本分布式KNN分类方法,其特征在于,包括下述步骤:
S1、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法;
面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为:
S111、初始化特征——类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);
S112、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);
S113、计算特征在训练数据集中的熵值:
其中p(t,ci)=f(t,ci)/f(ci),n为类别的总数目;
S114、采用逻辑斯蒂方程计算特征的分类贡献度:
其中,threshold是归一化阈值;
面向非均匀类分布数据、基于平衡熵的特征权重量化子方法,考虑到类之间文档数量的不平衡性,在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重,包括以下步骤:
S121、初始化特征-类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);
S122、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);
S123、计算特征-类别词频与类别总词频的相对比例:
f′(t,ci)=f(t,ci)/f(ci);
S124、计算特征在训练数据集中的熵值:
其中,n为类别的总数目;
S125、采用逻辑斯蒂方程计算特征的分类贡献度:
其中,threshold是归一化阈值;
S2、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合;
在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的节点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算;在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本;
在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。
2.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类方法,其特征在于,步骤S2具体为:
S21、将训练数据集划分成n个子集,其中n为Hadoop平台中负责运算的从属节点个数;
S22、每个从属节点在读入训练数据子集时,建立一个特征与包含该特征的文档之间的索引,表示为:<ti:qi,…,qk>,其中ti是特征,qi为包含ti的文档,该索引用来快速查找包含某个特征的文档集合,另外,建立一个文档向量模的缓存单元;
S23、对于一个待分类的测试文档数据q,同时分派给每个从属节点,在每个节点中,首先初始化A[1]-A[k]作为q的初始近邻,A[1]-A[k]按q与A[i]的相似度similarity(q,A[i])降序排序,然后通过查找索引找出包含q中特征的所有训练集文档<qi,…,qk>作为候选邻居集合,依次计算q与每个候选邻居qi的余弦相似度,q与qi的相似度的计算公式为:在计算相似度时,查找缓存单元中是否包含带计算文档qi向量的模值||qi||,若存在,将模值取出进行计算;若不存在,首先计算该文档向量的模值,然后加入缓存单元,将得到的similarity(q,qi)与similarity(q,A[i])比较,其中i∈[1,k],找出第一个similarity(q,A[i])<similarity(q,qi)的A[i],若i∈[1,k],则将A[j+1]=A[j],其中j∈[i,k],并令A[i]=qi;否则,继续与下一个候选邻居进行相似性计算,最终,A[1]-A[k]即为每个节点中与q局部最相似的k个邻居;
S24、将每个节点中的局部最相似的k个邻居采用多路归并排序算法进行排序找出全局最相似的k个邻居,将该k个邻居以相似度进行预测类别投票,取出相似度最大的类别作为q的预测类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410150855.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种橡胶制品生产工艺流程与自动流水线
- 下一篇:交联聚乙烯绝缘电缆
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置