[发明专利]一种特征评价选择方法在审
申请号: | 201210475431.4 | 申请日: | 2012-11-21 |
公开(公告)号: | CN103838730A | 公开(公告)日: | 2014-06-04 |
发明(设计)人: | 牟向伟 | 申请(专利权)人: | 大连灵动科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 曲永祚 |
地址: | 116023 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 评价 选择 方法 | ||
1.一种特征评价选择方法,其特征在于:包括以下步骤:
A、信息增益
在信息检索领域,研究者使用TF,DF,TFIDF来确定特征的相关性;本论文把TFIDF定义为:
其中N是语料库中所有文章的数量;可见特征t在文章d中的TF值越大,而在语料库所有文章中出现的次数DF越少,TFIDF的值就会越大,则可以为特征t具有很好的区分能力适合用来计算文本相似度;
信息论中的方法考虑了某一特征在不同类别文章中的分布情况;使用最多的方法是信息增益,它包括了特征在某一类别中出现和不出现这两种情况;本文采用如下的定义式:
其中:P(t)表示文章d包含特征t的概率;P(c|t)表示包含特征t的文章d属于类别c的概率;表示文章d不包含特征t的概率;表示不包含特征t的文章d属于类别c的概率;通常而言,IG(t,c)中各个事件的概率可以用其相应的频率来估算;,条件概率P(c|t)=P(t|c)/P(t);特征t与类别c的信息增益越大,说明特征t中包含的与类别c有关的鉴别信息就越多,当然应该选择信息增益值大的特征;
期望交叉熵只包含了特征出现在某一类别中的情况;其数学表达式如下:
χ2统计量方法的数学表达式如下:
这个概念来自联表检验,它可以用来衡量特征t和类别c之间的统计相关性;在此基础上,提出了一种更为简化的χ2统计量,被称为S-χ2;IG的性能要优于CET和S-χ2;
B、基于杂质能级的特征评价选择
这一类的方法来自于机器学习的领域,它们原本都是用来评价机器学习算法生成的规则质量的;为了能够将其应用到文本相似度计算的属性评价和选择上,本发明要对其进行适当的修改;定义一个组合(t,c),规则是:如果文章d包含特征t,那么文章d就属于类别c,本文用t→c来描述;这样以来,评价特征t在类别c中的重要程度问题就转换为衡量规则t →c质量的问题;为了便于进行讨论,本文引入如下的符号:
At,c表示属于类别c且包含特征t的文章数量
Bt,c表示不属于类别c且包含特征t的文章数量
Ct,c表示属于类别c且不包含特征t的文章数量
Dt,c表示不属于类别c且不包含特征t的文章数量
通常而言,规则质量的衡量标准是规则在应用过程中的成功率和失败率;本发明使用最常见的拉普拉斯修正方法修改原始的成功率计算方法,把训练成功的数量加1除以训练实例的总数加2所得的商作为新的成功率;计算方法如下:
这个方法只考虑了出现特征t的文章;
其它的方法还有Johannes等人给出的一种差分法的简化计算方法如下所述:
D(t→c)=At,c-Bt,c
它把包含特征t属于类别的文章数量Bt,c作为包含特征t属于类别c的文章数量At,c的惩罚而减去,目的是为了在At,c和Bt,c之间建立一种平衡;
提出了利用杂质能级的衡量方法;该方法不仅考虑到了属于类别c且包含特征t的文章,而且还考虑了文章在所有类别的分布情况;为了讨论文章的分布问题,本文引入无条件规则的概念,符号为→c,它表示属于类别c的任意一篇文章;这个规则作为其它规则的一个参考;本文要利用规则使用的次数n和规则成功的次数m来计算规则t→c的杂质能级;已知规则t→c的成功率的前提下,可以先求出规则的置信区间:
其中Z是置信水平为1-α的标准正态分布的Z值;p是规则使用的成功率,如下所述:
因此,杂质能级就可以定义成规则t→c的置信区间和无条件规则→c的重合程度,如下公式所述:
如果杂质能级的值小于零,则说明规则t→c的成功率要高于无条件规则→c,因此要选择杂质能级小的特征;上面的方法仅仅考虑了包含特征t的文章;如果再考虑属于类别c但是不包含特征t的那些文章的话,应该会有助于特征的评价和选择;本文就把这些信息添加进来,可以得到如下计算方法:
De(t→c)=At,c-Bt,c-Ct,c
此时规则使用的成功率用公式可以描述如下:
相应的置信区间如下:
就能得到新的杂质能级,如下:
还有一个局部特征集和全局的选择问题;局部特征集由出现在某一类别文章中的特征组成,而全局特征集是由参与训练的文章中出现的所有特征组成的;也就是说有多少个类别就会有多少个局部特征集,只会有一个全局特征集;本论文在计算所有词条评估分数的基础上,先从每个局部特征集抽取出一定数量的特征作为局部特征子集,再用所有的局部特征子集组合成供计算相似度使用的最终特征集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210475431.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:行车激光纠偏装置
- 下一篇:铁路货车通用型固定牵引杆