[发明专利]一种文本维度压缩及尺度调整方法以及基于此的分类方法有效
申请号: | 200910076589.2 | 申请日: | 2009-01-09 |
公开(公告)号: | CN101464907A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 曾依灵;许洪波;吴高巍 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王 勇 |
地址: | 100190北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 维度 压缩 尺度 调整 方法 以及 基于 分类 | ||
技术领域
本发明涉及信息检索领域和文本挖掘领域,进一步地,涉及一种文本维度压缩及尺度调整方法以及基于此的分类方法。
背景技术
随着计算机技术的发展、网络得以普及并迅猛发展,互联网上的内容也呈爆炸性增长。根据CNNIC的统计,截至2008年1月,中国网页数目已达84.7亿个,总字节数已达198,348GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。文本分类作为一种重要的文本分析及组织技术,应用到了信息检索的各个方面,以期为用户提供一种有效的文本组织和管理形式。具体而言,文本分类是一种有指导的(supervised)文本分析算法,它利用训练集里带类别标签的文本训练分类模型,并用训练好的分类模型去判断测试集中各个文本的所属类别。迄今为止,关于分类算法的研究已较为成熟,研究者提出的分类算法也多种多样,如决策树、贝叶斯分类器、K近邻、SVM分类器等。
在文本分类领域,分类算法的性能通常受到两个重要因素的影响:一个因素为文本高维特性所带来的“维度灾难(curse of dimensionality)”;另一个因素为算法模型的理想假定与语料实际分布之间的“模型不匹配”问题。
其中,维度灾难是由文本的自身特性造成的。在分类过程中,文本通常用经典的向量空间模型VSM(Vector Space Model)表示。在向量空间模型中,文本集中出现的每一个词,都构成向量空间的一个维度。而无论中文还是英文,通常文本集中所出现的词语量都相当惊人,特征空间也通常具有成千上万的维度,从而造成了所谓的维度灾难:一方面使得计算上的开销极大程度地增加,另一方面使得低维空间的诸如近邻性质等性质不再适用。这些问题导致了分类算法性能的下降。
模型不匹配问题源于分类算法的理想假定与语料真实分布之间的差异。以最简单的中心法分类器为例,它假定属于同一个类的语料分布在一个球形的区域内,该类的中心即为该球形区域的中心。因此,判断一个文本属于什么类,只需要比较它和各个类中心的距离,划入最近的类别即可。然而,真实的语料分布往往很难满足如此理想的假定。图1描述了一个模型不匹配的典型实例。图中的语料分为两个类,左边的类分布宽泛而右边的类较为紧凑。以样本x为例,它本该属于左边的类别class1,但根据中心法模型,它被错判到了右边的类别class2。
为了解决文本领域高维度所带来的“维度灾难”问题,以及模型假设与语料实际分布不符所带来的“模型不匹配”问题,研究者提出了各种解决途径。
解决维度灾难问题最重要的方式是通过一定策略进行特征降维。其中最为简单的策略是通过词语的文本频率即df值进行特征选择,在具备类别标签的分类语料里,还可以采用信息增益、增益率、Gini指标等特征选择方法进行降维。而对于模型不匹配问题,通常采用空间变换的方式来弥补语料自身的缺陷。如核方法通过隐式的空间映射将待解决的问题从原空间映射到新的特征空间以弥补原空间的不足。
一种值得单独一提的方法是浅层语言理解(LSI),其在降维的同时,也弥补了文本语料词与词之间并不独立的缺陷。LSI通过对词-文本(term-document)矩阵进行奇异值分解(SVD,Singular Value Decomposition),并保留最重要的前几项,在降维的同时将语料映射到更为独立的语义空间,从而绕开了词与词之间由于不相互独立所可能导致的问题。
在上述的各种解决途径中,简单的特征选择能够在一定程度上限制特征规模,但很难大幅度地压缩特征空间,同时也无法解决语料自身的分布问题;以核方法为代表的空间映射,虽然能在一定程度上解决空间的固有缺陷,却不能同时解决维度灾难。LSI在同时做到了二者,却有着较高的时间复杂度。
因此,迫切需要一种新颖的维度压缩及尺度调整方法,其时间复杂度低,能较大地降低文本表示空间的维度,同时使语料空间具有更为理想的分布,从而缓解模型不匹配问题。
发明内容
本发明要解决的技术问题是提供基于文本维度压缩及尺度调整的文 本分类方法,其能够大幅度压缩文本表示的维度,并在压缩后的维度上进行尺度调整,通过这种隐式的变换使语料转换到更为理想的分布状态,提高分类算法的性能。
为实现上述发明目的,根据本发明的一个方面提供了一种基于文本维度压缩及尺度调整的文本分类方法,包括下列步骤:
1)将待分类文本进行预处理,使用特征空间的特征向量表示待分类文本xj;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910076589.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:晶体管相对精度模型方法
- 下一篇:制品调度控制方法