[发明专利]一种基于临界值数据划分的并行KNN文本分类方法有效

申请号：	201711192239.3	申请日：	2017-11-24
公开（公告）号：	CN107832456B	公开（公告）日：	2021-11-26
发明（设计）人：	何婧;姚绍文;薛岗;王亚西	申请（专利权）人：	云南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62
代理公司：	昆明金科智诚知识产权代理事务所(普通合伙) 53216	代理人：	胡亚兰
地址：	650091 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于数据处理技术领域，公开了一种基于临界值数据划分的并行KNN文本分类方法，包括：训练集文本重定义，经过预处理后，训练集中的文本就会被处理成统一的格式，将通过词条将文本中的信息处理成键值对的形式；确定新文本的向量，使用TF‑IDF方式处理新的文本；确定K个文本；文本的权重计算；比较类的权重值的大小，根据词条的权重将词条分到对应的中心点的集合中。本发明只需要和中心点集合中的数据进行相似度求解，然后进行分类减少分类时间开销；另外在对文本间的相似度计算的余弦定理上进行了改进，利用MapReduce的分布式编程优势处理文本相似度计算后的键值对，从而提高文本分类的效率。
搜索关键词：	一种基于临界值数据划分并行 knn 文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于临界值数据划分的并行KNN文本分类方法，其特征在于，所述基于临界值数据划分的并行KNN文本分类方法包括以下步骤：步骤一，经过预处理后，训练集中的文本就会被处理成统一的格式，即通过词条将文本中的信息处理成键值对的形式。为了反映词条的特征信息，采用TF‑IDF算法计算词条的权值，处理过程分为TF和IDF两部分：TF定义为文本中词条出现的频数；IDF定义为反向文本概率，是衡量词条分布的一个重要特性。其中TF的计算公式为：tfi,j＝ni,j/∑knk,j式中，ni,j表示文本j中词条i的出现次数，∑knk,j表示文本j中所有词条的统计总数。词条的IDF计算方法为：idfi,j＝log(|D|/|{j:ti∈dj}|)式中，|D|表示样本数据集中所有文本总数；|{j:ti∈dj}|表示包含词条ti的文本数目(即ni,j≠0的文本数目)，若分母为零，表示该词条不在数据集中，此时使用1+|{j:ti∈dj}|来代替分母；得到词条权重的计算公式如下：tfidfi,j＝tfi,j×idfi,j特定文本中的高频率的词条就会产生高权重的TF‑IDF，从而对数据集中的词条进行筛选和过滤；步骤二，确定新文本的向量，使用TF‑IDF方式处理新的文本；步骤三，确定K个文本，基于临界值文本划分算法得到样本数据集中的中心点集合，将待分类文本与中心点集合进行相似度计算，并根据相似度将待分类文本划分到中心点集合的对应数据集中，选出集合中K个最近邻文本；使用余弦定理并行化处理和TF‑IDF，进行文本中的相似度计算：sim(di,dj)=cosθ=Σk=1nwk(di)×wk(dj)/(Σk=1nwk2di)×Σk=1nwk2dj)]]>步骤四，文本的权重计算公式为：P(x,c)=Σdi∈KNNsim(x,di)×y(di,c)]]>其中，x表示新特征词，sim(x,di)为上述相似度求解公式，而y(di,c)公式表示类别属性函数，即若dj属于C类true为1，false为0；步骤五，比较类的权重值的大小，根据词条的权重将词条分到对应的中心点的集合中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南大学，未经云南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201711192239.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于临界值数据划分的并行KNN文本分类方法有效

专利文献下载