[发明专利]基于互信息的用于文档分类的并行特征选择方法有效
申请号: | 201510532920.2 | 申请日: | 2015-08-26 |
公开(公告)号: | CN105183813B | 公开(公告)日: | 2017-03-15 |
发明(设计)人: | 李钊;顾卫东;孙占全 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心);山东亿云信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 济南泉城专利商标事务所37218 | 代理人: | 褚庆森 |
地址: | 250014 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的基于互信息的用于文档分类的并行特征选择方法,包括a).选取样本并分类;b).求解词的TF‑IDF值;c).生成初始化数据集合D={x1,x2,...,xN};d).分布式计算,将所有子数据集平均分布到m个计算节点上;e).建立集合,S=Φ,V={X1,X2,...,XM};f).计算联合、条件概率分布;g).计算互信息;h).选取特征变量;i).判断数量是否已够;j).文本分类。本发明的文档分类的并行特征选择方法,基于瑞利熵的互信息被用来度量特征变量与类变量之间的相关性,使得最终选取的特征变量的更能代表文档分类的特征,分类效果更准确,分类结果要好于目前常用特征选择方法得到的结果,有益效果显著,适于推广应用。 | ||
搜索关键词: | 基于 互信 用于 文档 分类 并行 特征 选择 方法 | ||
【主权项】:
一种基于互信息的用于文档分类的并行特征选择方法,其特征在于,通过以下步骤来实现:a).选取样本并分类,选取N篇文档,形成训练样本集合D={d1,d2,...,dN},di为选取的单篇文档;采用人工划分的方式每个文档进行分类,形成类变量集合C=Y={c1,c2,...,cp},文档di的种类必属于类变量集合C;b).求解词的TF‑IDF值,TF‑IDF是词频tf(t,d)和逆文档频率idf(t,D)的乘积,对于每个文档中的每个词计算求解其TF‑IDF值;在所有文档中如果某个词的TF‑IDF值都小于临界值m,则该词属于低频词,将其忽略掉;c).生成初始化数据集合,以每个文档中词的TF‑IDF值为向量,组成初始化数据集合D={x1,x2,...,xN},xi为文档i中所有被选中词的TF‑IDF值所组成的向量;d).分布式计算,将数据集合D={x1,x2,...,xN}平均分成n个子数据集D1,D2,…,Dn,然后将所有子数据集平均分布到m个计算节点上,以确保较高的计算速度;设要选择出数目为k的词变量集合;e).建立集合,假设S和V为两个集合,设S=Φ,V={X1,X2,...,XM},S表示已被选择的特征,V表示没被选择的特征,M表示特征变量个数;f).计算联合、条件概率分布,对于每个没有被选中的词变量Xi,计算联合概率分布p({S,Xi})和条件概率分布函数p({S,Xi}|Cj),i∈{1,2,...,M},M表示特征变量个数;j∈{1,2,...,p};p({S,Xi})表示某一文档中待判断的特征变量Xi与已选中的特征词集合S之间的联合概率分布;g).计算互信息,通过公式(1)计算{S,Xi}与类变量Y之间的互信息I({S,Xi};Y):I({S,Xi};Y)=H({S,Xi})+H(Y)‑H({S,Xi},Y) (1)其中,i∈{1,2,...,M},M表示特征变量个数;每个计算节点计算完毕后,本次计算中使互信息I({S,Xi};Y)具有最大值的特征变量Xi作为选中词;h).选取特征变量,统计每个计算节点所返回的特征变量Xi和相应的互信息,被选中次数最多的词Xi作为本次计算所要选择的特征变量;如果两个变量被选中的次数一样多,则选择互信息值的和最大的特征变量作为计算所要选择的特征变量;把本次计算中选取的词变量Xi从集合V中去除,将其增添至集合S中,执行步骤i);i).判断数量是否已够,判断集合S中所选取的特征变量的数目是否达到了设定的k个,如果达到,则停止运算;如果没有达到,则跳转至步骤f),继续进行特征变量的选取;j).文本分类,利用所选取的k个特征变量作为支持向量机的输入对文本进行分类,具有很高的准确率;其中,步骤f)中所述的联合概率分布和条件概率分布通过以下步骤来实现:f‑1).假设一组训练文档样本用(xi,ci)表示,i=1,2,…,N,xi是文档中所有TF‑IDF值组成的向量,其中每个文档的向量值和对应的类变量值都已知,通过公式(5)计算概率分布函数:p(x)=1(2π)M/2|Σ^|1/2exp(-(x-μ^)TΣ^(x-μ^)2)---(5)]]>其中,参数μ和∑的极大似然估计分别通过公式(6)和公式(7)进行求取:μ^=1NΣk=1Nxk---(6)]]>Σ^=1NΣk=1N(xk-μ^)(xk-μ^)T---(7)]]>f‑2).最初的数据集合被分成q部分,每部分的大小为Nj,它满足类C=cj的概率分布函数为:p(x|cj)=1(2π)M/2|Σ^j|1/2exp(-(x-μ^j)TΣ^j(x-μ^j)2)---(8)]]>f‑3).离散类变量的概率分布函数通过统计方法计算,即:P(cj)=NjN,j=1,2,...,q---(9)]]>f‑4).X和C=cj的联合概率分布函数为:p(x,cj)=p(cj)p(x|cj)=Nj(2π)M/2N|Σ^j|1/2exp(-(x-μ^j)TΣ^j(x-μ^j)2)---(10)]]>将变量{S,Xi}代入公式(10)和(8)即可求取联合概率分布函数和条件概率分布函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心);山东亿云信息技术有限公司,未经山东省计算中心(国家超级计算济南中心);山东亿云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510532920.2/,转载请声明来源钻瓜专利网。