[发明专利]一种基于指导的文本特征加权方法无效

申请号：	201210063879.5	申请日：	2012-03-12
公开（公告）号：	CN102662976A	公开（公告）日：	2012-09-12
发明（设计）人：	刘端阳;陆洋	申请（专利权）人：	浙江工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;王利强
地址：	310014 ***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于指导文本特征加权方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及文本分类方法，尤其是一种文本特征加权方法。

背景技术

随着互联网应用的普及，网络中已存储了海量的文本信息，人们迫切地需要从文本中挖掘出有用的信息。文本挖掘就是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。文本分类是在给定的类别体系下，根据文本内容自动确定所属类别的过程。文本分类中一个重要组成部分是文本表示，文本表示中最常用的是向量空间模型(Vector Space Model，VSM)，VSM是文本表示的一个统计模型，它把文档看成是由特征向量组成的，而每个特征向量可以是词也可以是短语，并且每个特征向量都含有权重，从而将文本的分类问题转化为向量空间中的向量匹配问题进行处理。转化为特征向量后，便可以使用常用的分类算法进行文本分类，如支持向量机、K近邻等。

文本表示中的一个重要问题就是选择哪些特征向量能最好的来代表文本，并且要去除那些没有代表价值的特征向量。通常文本分类的一般过程为：分词、去停用词、索引、统计、特征提取、特征加权、分类训练以及评估。

其中文本特征加权是整个处理过程中比较重要的一环。基于统计的文本特征加权，主要分为两大类：即有指导的特征加权方法(supervised term weighting method)和无指导的特征加权方法(unsupervised term weighting method)。现在比较普遍使用的是词频反文档频率加权方法(term frequency and inverse document frequency，tf.idf)，它属于无指导的特征加权方法。

目前，国内外都提出了不少关于特征加权的改进方法，包括有指导的和无指导的特征加权方法。薛小兵将文本词的分布密集性，文本长度以及词第一次出现的位置作为特征加权的主要考虑因素。然而无指导的特征加权方法并没有考虑特征在训练集各文档以及各类别中分布比例上的差异对分类的影响。相反有指导的特征加权方法正是考虑到了这一点。李凯齐首先指出了tf.idf方法的不足，在基于有指导的方法基础上，将信息增益结合tf.idf来改进文本特征加权。Man Lan则考虑了词在正类和反类中的比例关系，认为只要正类比反类占的比例越高，该词就越能代表正类，就具有越高的权值。

发明内容

为了克服现有文本特征加权方法的分类性能较差的不足，本发明提供一种提升分类性能的基于指导的文本特征加权方法

为了解决上述技术问题采用的技术手段为：

一种基于指导的文本特征加权方法，进行文本特征提取后得到a，b，c，d四类文档数，分别代表如下：

a表示含词项t且属于正例的文档数；

b表示不含词项t但属于正例的文档数；

c表示含词项t但不属于正例的文档数；

d表示不含词项t且不属于正例的文档数。

a，b，c，d的总和为N，即总文档数；

所述文本特征加权公式如下：

ridf=log2=(2+(amax(1,c))K)---(1)]]>