[发明专利]一种基于关联分析和KNN的文本分类方法有效
申请号: | 201310312018.0 | 申请日: | 2013-07-24 |
公开(公告)号: | CN103345528A | 公开(公告)日: | 2013-10-09 |
发明(设计)人: | 成卫青;范恒亮;杨庚;黄卫东;梁胜 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于关联分析和KNN的文本分类方法,用于解决基于传统KNN的文本分类方法存在的效率和准确率有待进一步提高的问题;本发明是一种策略性方法考虑到被测文档与近邻文档向量的特征属性会重合较多,本发明提出一种基于关联分析和KNN的文本分类方法该方法基于对各个类别文本进行关联分析的结果,快速确定未知类别文本合适的近邻数k,并在已知类别的文本中选取k个近邻,进而根据近邻类别确定未知文本的类别,改进了基于传统KNN的文本分类方法k值难以确定及时间复杂度高的不足,提高了文本分类的效率和准确率。 | ||
搜索关键词: | 一种 基于 关联 分析 knn 文本 分类 方法 | ||
【主权项】:
一种基于关联分析和KNN的文本分类方法,其特征在于,包含如下步骤:步骤I.基于关联分析提取频繁特征词集合及其关联的训练文本步骤(1)设文本类别总数为m,类别为c1,c2,...,cm,对训练集中的文本进行预处理,利用χ2统计方法,对训练集中各类别文本分别选取一定数量,记为Nf,的特征词;步骤(2)扫描所有训练文本,将每个文本表示为由所有类别的特征词构成的m·Nf维文本向量,利用TF‑IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF‑IDF*特征评价值;步骤(3)提取每个类别的频繁特征集及其关联的文本;本步仅考虑每个训练文本所属类别的特征,其余的暂且忽略;对每个类别分别处理,包括如下步骤:步骤(31)将该类别的每个文本看作是单个事务,将其包含的本类别的特征词看作是事务的数据项,设置最小支持度,利用Apriori算法得到该文本类别满足最小支持度阈值的所有项集,即所有频繁项集;步骤(32)对每一个频繁项集保存其关联的训练文本,包含某频繁项集中所有特征的训练文本即为该频繁项集关联的训练文本;步骤II.利用关联分析结果,确定待分类文本的初始近邻并确定最终的近邻数K,再利用KNN进行文本分类步骤(1)对于待分类文本,先进行预处理,再利用已提取出的各类别的特征词表示该文本,得到m·Nf维文本向量,再利用TF‑IDF和基于χ2统计方法的特征评价函数计算特征权重,将权重设为:TF‑IDF*特征评价值;步骤(2)对待分类文本的文本向量中属于各个类别的特征词的权重分别求和并降序排列,选取排列在前3的类别,记为cx,cy,cz,及特征;步骤(3)根据步骤(2)获取的待分类文本的文本向量中属于前3个类别的特征词,分别在其对应的类别中查找最大频繁项集,并获取相关联的训练文本,这些训练文本都作为待分类文本的初始近邻;设相关联的训练文本集合分别为Ix,Iy,Iz,文本数目分别为nx,ny,nz,设定k=min(2.5*nx,nx+ny+nz);步骤(4)计算待分类文本与每个初始近邻文本的余弦相似度;步骤(5)将相似度降序排列,选取前k个训练文本,统计属于3个类别的文档数目,分类别累加相似度,进而得到待分类文本与每个类别近邻文本相似度的平均值,平均值最大的类别判定为待分类文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310312018.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种复杂网络中网络社团的确定方法及装置
- 下一篇:数据智能统计系统