[发明专利]基于类别之间相关性学习的中文文本分类方法无效
申请号: | 201110268825.8 | 申请日: | 2011-09-13 |
公开(公告)号: | CN102332012A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 吴娴;杨兴锋;张东明;何崑 | 申请(专利权)人: | 南方报业传媒集团 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松 |
地址: | 510601 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 类别 之间 相关性 学习 中文 文本 分类 方法 | ||
技术领域
本发明属于中文文本分类算法研究领域,特别涉及一种采用词项与类别之间的辨别指数选取特征、基于类别之间相关性学习的中文文本分类方法。
背景技术
随着中国出版业的迅速发展,电子格式的中文文档数量不断攀升。文档分类的工作愈发繁琐,因此,利用先进的机器学习和模式分类方法辅助传统的人工分类变得十分必要。
中文文本分类方法主要有特征选择和分类算法两部分构成。文档集的特征一般采用词袋模型(Bag-of-Words)和文档向量模型(Vector Space Model)的形式表示,其关键区别在于权重的计算方式不同,词袋模型的权重是用概率表示由词生成文档的概率,文档向量模型的权重可以看作是词项频率统计的函数映射。文档的表示必须选取具有代表性的词项作为特征索引。词项的粒度可以选择字、词、短语、概念、N-Gram以及其它规律性模式,根据频率统计选择特征,并对剩余特征项计算不同权重用于文档表示。将文档集中所有文档的表示向量接连起来即可构成文档集的特征表示,但是此类特征表示方法容易遭遇维数灾难,同时也面临着小样本问题。因此,在文本分类中,常采用概念索引(Concept Index)、互信息量(Mutual Information)、信息增益(Information Gain)、交叉熵(Cross Entropy)、CHI统计(CHI Statistics)和几率比(Odds Ratio)等方法来降低特征向量的维数。常用的分类方法有贝叶斯、K近邻、决策树和SVM方法。但是,以上现有的方法效果仍不尽如人意。其原因除了客观上训练样本的不均匀分布和样本文档类别间的复分性之外,更可能的原因有以下:特征选择的硬判决割断了文档连续词项之间的语义关联;文本分类算法中大多忽略了不同类别文档之间的相关性,而类别之间的相关性对于改善文本分类性能有着积极作用。
目前,最新的主流算法主要有以下几种:
(1)Z.Guo等(Z.Guo,L.Lu,S.Xi and F.Sun,An effective dimension reduction approach to Chinese document classification using genetic algorithm.Lecture Notes in Computer Science,5552/2009:480-489,2008)提出基于遗传算法的中文文档分类方法;
(2)M.Y.Jia等(M.Y.Jia,D.Q.Zheng,B.R.Yang and Q.X.Chen,Hierarchical text categorization based on multiple feature selection and fusion of multiple classifiers approaches.International Conference on Fuzzy Systems and Knowledge Discovery,2009)提出基于多特征选择和多分类器的层次文本分类方法;
(3)Cheng等(X.Cheng,S.Tan and L.Tang,Using dragpushing to refine concept index for text categorization,Journal of Computer Science and Technology,21(4):592-596,2006)采用Concept Index方法进行文本分类。
以上算法均需采用SVM等方法训练构造分类器,算法运行量大,运行所需时间很长,在实际应用中存在诸多局限。
因此,研究如何在考虑同类别文档之间的相关性的情况下提高分类精确度且同时降低算法复杂度的中文文本分类算法是一个极具实际意义的课题。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于类别之间相关性学习的中文文本分类方法。该方法在特征选择环节,分别统计全部词项与类别的辨别指数并将其作为权重筛选特征词项,同时在一对多分类框架下,计算出不同类别文档之间的相关性矩阵,对于新文本的分类精确度提高,同时计算复杂度降低,运行所需时间减少,具有很好的应用前景。
本发明的目的通过以下的技术方案实现:基于类别之间相关性学习的中文文本分类方法,具体包括以下步骤:
(1)训练过程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方报业传媒集团,未经南方报业传媒集团许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110268825.8/2.html,转载请声明来源钻瓜专利网。