[发明专利]基于信息熵特征权重量化的海量短文本分布式KNN分类算法及系统有效

专利信息
申请号: 201410150855.2 申请日: 2014-04-15
公开(公告)号: CN103955489B 公开(公告)日: 2017-09-22
发明(设计)人: 蔡毅;蔡志威;王涛 申请(专利权)人: 华南理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 广州市华学知识产权代理有限公司44245 代理人: 蔡茂略
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 信息 特征 权重 量化 海量 短文 分布式 knn 分类 算法 系统
【权利要求书】:

1.基于信息熵特征权重量化的海量短文本分布式KNN分类方法,其特征在于,包括下述步骤:

S1、通过信息熵指标衡量特征在数据集中的分布确定性,将确定性高的特征赋予高权重,反之赋予低权重,得到反映类分布的权重量化方法;

面向类分布均匀数据、基于熵的特征权重量化子方法的具体步骤为:

S111、初始化特征——类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);

S112、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);

S113、计算特征在训练数据集中的熵值:

Entropy(t)=Σi=0np(t,ci)log(p(t,ci))]]>

其中p(t,ci)=f(t,ci)/f(ci),n为类别的总数目;

S114、采用逻辑斯蒂方程计算特征的分类贡献度:

weight(t)=11+eentropy(t)-threshold]]>

其中,threshold是归一化阈值;

面向非均匀类分布数据、基于平衡熵的特征权重量化子方法,考虑到类之间文档数量的不平衡性,在一个样本数极少的类中出现一次和在一个样本数较多的类中出现一次应该给予不同的权重,包括以下步骤:

S121、初始化特征-类别分布矩阵,统计每个特征t在各个类ci中出现词频f(t,ci);

S122、计算每个类别ci的词频总数f(ci)=∑tf(t,ci);

S123、计算特征-类别词频与类别总词频的相对比例:

f′(t,ci)=f(t,ci)/f(ci);

S124、计算特征在训练数据集中的熵值:

Entropy(t)=Σi=0np(t,ci)log(p(t,ci))]]>

其中,n为类别的总数目;

S125、采用逻辑斯蒂方程计算特征的分类贡献度:

weight(t)=11+eentropy(t)-threshold]]>

其中,threshold是归一化阈值;

S2、基于Hadoop分布式计算平台,采用MapReduce计算框架进行设计的,分为两轮MapReduce操作组合;

在第一轮Map操作中,训练集被平均拆分为多个子训练集并分配到进行运算的节点上,每一个待分类的测试数据同时在不同节点上,分别与该节点中的子训练集进行相似度计算;在第一轮Reduce操作中,在各个节点中对Map计算得到的相似度进行排序,获得每个节点上与测试样本数据的局部最相似的k个训练集样本;

在第二轮Map操作中,将每个节点中的局部最相似的k个训练集样本的相似度和类别进行统计,在第二轮Reduce操作中,各个训练集样本以相似度进行投票,选出相似度最大的类别作为测试样本数据的预测类别;其中第二轮MapReduce操作组可以根据集群节点数目酌情变换成多轮MapReduce操作组合。

2.根据权利要求1所述的基于信息熵特征权重量化的海量短文本分布式KNN分类方法,其特征在于,步骤S2具体为:

S21、将训练数据集划分成n个子集,其中n为Hadoop平台中负责运算的从属节点个数;

S22、每个从属节点在读入训练数据子集时,建立一个特征与包含该特征的文档之间的索引,表示为:<ti:qi,…,qk>,其中ti是特征,qi为包含ti的文档,该索引用来快速查找包含某个特征的文档集合,另外,建立一个文档向量模的缓存单元;

S23、对于一个待分类的测试文档数据q,同时分派给每个从属节点,在每个节点中,首先初始化A[1]-A[k]作为q的初始近邻,A[1]-A[k]按q与A[i]的相似度similarity(q,A[i])降序排序,然后通过查找索引找出包含q中特征的所有训练集文档<qi,…,qk>作为候选邻居集合,依次计算q与每个候选邻居qi的余弦相似度,q与qi的相似度的计算公式为:在计算相似度时,查找缓存单元中是否包含带计算文档qi向量的模值||qi||,若存在,将模值取出进行计算;若不存在,首先计算该文档向量的模值,然后加入缓存单元,将得到的similarity(q,qi)与similarity(q,A[i])比较,其中i∈[1,k],找出第一个similarity(q,A[i])<similarity(q,qi)的A[i],若i∈[1,k],则将A[j+1]=A[j],其中j∈[i,k],并令A[i]=qi;否则,继续与下一个候选邻居进行相似性计算,最终,A[1]-A[k]即为每个节点中与q局部最相似的k个邻居;

S24、将每个节点中的局部最相似的k个邻居采用多路归并排序算法进行排序找出全局最相似的k个邻居,将该k个邻居以相似度进行预测类别投票,取出相似度最大的类别作为q的预测类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410150855.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top