[发明专利]一种提高向量距离分类质量的方法在审

专利信息
申请号: 201210476178.4 申请日: 2012-11-21
公开(公告)号: CN103838737A 公开(公告)日: 2014-06-04
发明(设计)人: 李聪慧;王秀坤 申请(专利权)人: 大连灵动科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连东方专利代理有限责任公司 21212 代理人: 曲永祚
地址: 116023 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 提高 向量 距离 分类 质量 方法
【说明书】:

技术领域

发明涉及一种提高自动分类质量的技术,特别是一种提高向量距离分类质量的方法。

背景技术

文档自动分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造算法有多种,主要有概率统计算法、机器学习算法、神经网络算法等。概率统计算法采用相对简单的机制。在处理大规模真实文档方面取得了令人满意的效果。

其中简单向量距离算法的思路十分简单,其根据算术平均,通过样本训练为每类文档集生成一个代表该类的中心向量;然后在新文档来到时,确定新文档向量,计算该向量与每类中心向量间的距离(相似度);最后判定文档属于与文档距离最近的类。贝叶斯分类算法的基本思路是计算文档属于类别的概率。文档属于类别的概率等于文档中每个词属于类别的几率的综合表达式。K-最近邻接分类算法的基本思路是在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文档,根据这K篇文档所属的类别判定新文档所属的类别。向量距离分类是假设经过训练后的用户目标类文档向量为U,待分类文档的向量V,两者的相似程度可用向量之间的夹角来度量,通常的方法是用两个向量间夹角的余弦表示。两者夹角越小,其余弦值愈大,说明相似度越大,两个文档分属相同类的可能性增加。

除此以外,支持向量机和神经网络算法再文档分类系统中应用的也较为广泛,支持向量机是一个用于解决模式识别问题的机器学习方法,它是基于结构风险最小化原理的,其基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线形可分。

而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判断正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。

当前这些算法虽然已经在某些领域或某些特定场合取得了良好的分类效果,但是其分类质量以及分类技术仍有待进一步的提高。

发明内容

为解决现有技术存在的上述问题,本发明将会通过对这些算法进行详细的学习研究和总结,在向量距离分类算法的基础上对特征项,特征权值,训练语料库,专业词典等进行了部分修正和完善,从而设计一种提高向量距离分类质量的方法。

为了实现上述目的,本发明的技术方案如下:一种提高向量距离分类质量的方法,包括以下步骤:

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立。

在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:

Tf=TMf+∑TTfi+e∑TIfi    (1)

式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分类精度确定,取值区间为[0,1]。该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到。

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字)等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的加权公式为:

TNf=TNfM+m×TNfT+n×TNfK+p×TNfD    (2)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连灵动科技发展有限公司,未经大连灵动科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210476178.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top