[发明专利]一种基于指导的文本特征加权方法无效
申请号: | 201210063879.5 | 申请日: | 2012-03-12 |
公开(公告)号: | CN102662976A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 刘端阳;陆洋 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;王利强 |
地址: | 310014 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于指导的文本特征加权方法,进行文本特征提取后得到a,b,c,d四类文档数,分别代表如下:a表示含词项t且属于正例的文档数;b表示不含词项t但属于正例的文档数;c表示含词项t但不属于正例的文档数;d表示不含词项t且不属于正例的文档数;a,b,c,d的总和为N,即总文档数;所述文本特征加权公式(1)。本发明提出的一种基于指导的文本特征加权方法tf.ridf,实现了词在总体文档及各类别文档之间的综合考虑,该方法有效地提高了分类性能。 | ||
搜索关键词: | 一种 基于 指导 文本 特征 加权 方法 | ||
【主权项】:
一种基于指导的文本特征加权方法,其特征在于:进行文本特征提取后得到a,b,c,d四类文档数,分别代表如下:a表示含词项t且属于正例的文档数;b表示不含词项t但属于正例的文档数;c表示含词项t但不属于正例的文档数;d表示不含词项t且不属于正例的文档数;a,b,c,d的总和为N,即总文档数;所述文本特征加权公式如下: ridf = log 2 = ( 2 + ( a max ( 1 , c ) ) K ) - - - ( 1 ) 其中K表示为: K = ( N a + c ) a - c | a - c | ( a ≠ c ) N a + c ( a = c ) - - - ( 2 ) 其中,ridf为相关反文档频率加权方法,与词频结合进行特征加权,该公式表示了一个文本在总体文本之间以及各个类别文本之间的重要程度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210063879.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种手性酰铵盐的合成方法
- 下一篇:一种放置于卧室内使用的电子钟表