[发明专利]一种特征评价选择方法在审
申请号: | 201210475431.4 | 申请日: | 2012-11-21 |
公开(公告)号: | CN103838730A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 牟向伟 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种特征评价选择方法,包括以下步骤:特征选择就是从原始的特征向量空间中选取出一个子集来代替原始的向量空间。本发明提出了一种新的局部特征集与全局特征集选择方法,允许每个局部特征集抽取一定数量的特征做为特征子集,再用所有的局部特征子集组合成最终的全局特征集。这种基于杂质能级的特征评价选择方法使用了统计机器学习的方法,可以有效地解决信息检索中存在的这一问题。 | ||
搜索关键词: | 一种 特征 评价 选择 方法 | ||
【主权项】:
1.一种特征评价选择方法,其特征在于:包括以下步骤:A、信息增益在信息检索领域,研究者使用TF,DF,TFIDF来确定特征的相关性;本论文把TFIDF定义为:TE - IDF = TF * log ( N DF ) ]]> 其中N是语料库中所有文章的数量;可见特征t在文章d中的TF值越大,而在语料库所有文章中出现的次数DF越少,TFIDF的值就会越大,则可以为特征t具有很好的区分能力适合用来计算文本相似度;信息论中的方法考虑了某一特征在不同类别文章中的分布情况;使用最多的方法是信息增益,它包括了特征在某一类别中出现和不出现这两种情况;本文采用如下的定义式:IG ( t , c ) = P ( t ) P ( c | t ) log ( P ( c | t ) P ( c ) ) + P ( t ‾ ) P ( c | t ‾ ) log ( P ( c | t ‾ ) P ( c ) ) ]]> 其中:P(t)表示文章d包含特征t的概率;P(c|t)表示包含特征t的文章d属于类别c的概率;
表示文章d不包含特征t的概率;
表示不包含特征t的文章d属于类别c的概率;通常而言,IG(t,c)中各个事件的概率可以用其相应的频率来估算;,条件概率P(c|t)=P(t|c)/P(t);特征t与类别c的信息增益越大,说明特征t中包含的与类别c有关的鉴别信息就越多,当然应该选择信息增益值大的特征;期望交叉熵只包含了特征出现在某一类别中的情况;其数学表达式如下:CET ( t , c ) = P ( t ) P ( c | t ) log ( P ( c | t ) P ( c ) ) ]]> χ2统计量方法的数学表达式如下:S - χ 2 ( t , c ) = P ( t , c ) · P ( t ‾ , c ‾ ) - P ( t , c ‾ ) · P ( t ‾ , c ) ]]> 这个概念来自联表检验,它可以用来衡量特征t和类别c之间的统计相关性;在此基础上,提出了一种更为简化的χ2统计量,被称为S-χ2;IG的性能要优于CET和S-χ2;B、基于杂质能级的特征评价选择这一类的方法来自于机器学习的领域,它们原本都是用来评价机器学习算法生成的规则质量的;为了能够将其应用到文本相似度计算的属性评价和选择上,本发明要对其进行适当的修改;定义一个组合(t,c),规则是:如果文章d包含特征t,那么文章d就属于类别c,本文用t→c来描述;这样以来,评价特征t在类别c中的重要程度问题就转换为衡量规则t →c质量的问题;为了便于进行讨论,本文引入如下的符号:At,c表示属于类别c且包含特征t的文章数量Bt,c表示不属于类别c且包含特征t的文章数量Ct,c表示属于类别c且不包含特征t的文章数量Dt,c表示不属于类别c且不包含特征t的文章数量通常而言,规则质量的衡量标准是规则在应用过程中的成功率和失败率;本发明使用最常见的拉普拉斯修正方法修改原始的成功率计算方法,把训练成功的数量加1除以训练实例的总数加2所得的商作为新的成功率;计算方法如下:L ( t → c ) = A t , c + 1 A t , c + B t , c + 2 ]]> 这个方法只考虑了出现特征t的文章;其它的方法还有Johannes等人给出的一种差分法的简化计算方法如下所述:D(t→c)=At,c-Bt,c它把包含特征t属于类别
的文章数量Bt,c作为包含特征t属于类别c的文章数量At,c的惩罚而减去,目的是为了在At,c和Bt,c之间建立一种平衡;提出了利用杂质能级的衡量方法;该方法不仅考虑到了属于类别c且包含特征t的文章,而且还考虑了文章在所有类别的分布情况;为了讨论文章的分布问题,本文引入无条件规则的概念,符号为→c,它表示属于类别c的任意一篇文章;这个规则作为其它规则的一个参考;本文要利用规则使用的次数n和规则成功的次数m来计算规则t→c的杂质能级;已知规则t→c的成功率的前提下,可以先求出规则的置信区间:CI l , u = 2 · n · p + Z α / 2 2 + Z α / 2 Z α / 2 + 4 · n · p - 4 · n · p 2 2 ( n + Z α / 2 2 ) ]]> 其中Z是置信水平为1-α的标准正态分布的Z值;p是规则使用的成功率,如下所述:p = m n = A t , c A t , c + B t , c ]]> 因此,杂质能级就可以定义成规则t→c的置信区间和无条件规则→c的重合程度,如下公式所述:IL ( t → c ) = CI u ( → c ) - CI l ( t → c ) CI u ( t → c ) - CI l ( t → c ) ]]> 如果杂质能级的值小于零,则说明规则t→c的成功率要高于无条件规则→c,因此要选择杂质能级小的特征;上面的方法仅仅考虑了包含特征t的文章;如果再考虑属于类别c但是不包含特征t的那些文章的话,应该会有助于特征的评价和选择;本文就把这些信息添加进来,可以得到如下计算方法:L e ( t → c ) = A t , c + 1 A t , c + B t , c + C t , c + 2 ]]> De(t→c)=At,c-Bt,c-Ct,c此时规则使用的成功率用公式可以描述如下:P e = A t , c A t , c + B t , c + C t , c ]]> 相应的置信区间如下:CIe l , u = 2 · n · p e + Z α / 2 2 + Z α / 2 Z α / 2 + 4 · n · p e - 4 · n · p e 2 2 ( n + Z α / 2 2 ) ]]> 就能得到新的杂质能级,如下:IL e ( t → c ) = CIe u ( → c ) - CIe l ( t → c ) CIe u ( t → c ) - CIe l ( t → c ) ]]> 还有一个局部特征集和全局的选择问题;局部特征集由出现在某一类别文章中的特征组成,而全局特征集是由参与训练的文章中出现的所有特征组成的;也就是说有多少个类别就会有多少个局部特征集,只会有一个全局特征集;本论文在计算所有词条评估分数的基础上,先从每个局部特征集抽取出一定数量的特征作为局部特征子集,再用所有的局部特征子集组合成供计算相似度使用的最终特征集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210475431.4/,转载请声明来源钻瓜专利网。
- 上一篇:行车激光纠偏装置
- 下一篇:铁路货车通用型固定牵引杆