[发明专利]一种提高向量距离分类质量的方法在审

专利信息
申请号: 201210476178.4 申请日: 2012-11-21
公开(公告)号: CN103838737A 公开(公告)日: 2014-06-04
发明(设计)人: 李聪慧;王秀坤 申请(专利权)人: 大连灵动科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 曲永祚
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种提高向量距离分类质量的方法,包括以下步骤:基于VSM的特征加权过程,包括基于词义的特征项词频加权和基于文档结构的特征项词频加权;提取英文搜索的词干;分析用户查询日志;训练语料库修正、扩充。本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷,采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率,通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正,最后,通过对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。
搜索关键词: 一种 提高 向量 距离 分类 质量 方法
【主权项】:
1.一种提高向量距离分类质量的方法,其特征在于:包括以下步骤:A、基于VSM的特征加权A1、基于词义的特征项词频加权本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立;在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:Tf=TMf+∑TTfi+e∑TIfi    (1)式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分类精度确定,取值区间为[0,1];该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到;A2、基于文档结构的特征项词频加权本发明对于同一个特征词条由于在文章正文、标题,网页源码中〈TITLE〉和〈/TITLE〉标记的文字、页面关键字,网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字、页面描述,网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算;相应的加权公式为:TNf=TNfM+m×TNfT+n×TNfK+p×TNfD    (2)其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进行字典关键词统计的词频数;m、n、p则分别为相应的加权系数;B、提取英文搜索的词干本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以及某些单词的名词、形容词、副词等多种形式,具有相同词干的词进行词干化处理,具体来讲,对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后用匹配方式实现;另一种方法是模仿前面介绍的同义词处理方式,将词干词放入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统计公式可参考同义词词频统计方法;C、分析用户查询日志本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据;这样就构成了一个针对专业词典的自适应闭环系统;D、训练语料库修正、扩充本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中,同时将一定时间阈值外的训练语料网页进行删除;这样就又构成了一个针对训练语料库的自适应闭环系统。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210476178.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top