[发明专利]一种面向类间交叠的两类文本分类方法无效
申请号: | 200910227303.6 | 申请日: | 2009-12-04 |
公开(公告)号: | CN101876987A | 公开(公告)日: | 2010-11-03 |
发明(设计)人: | 李弼程;林琛;陈刚;席耀一;郭志刚 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450002 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 交叠 文本 分类 方法 | ||
技术领域
本发明涉及文本信息分析与处理技术领域,尤其是涉及一种面向类间交叠的两类文本分类方法。
背景技术
随着Internet的普及和迅速发展,作为网络数据的主要形式的文本数据大量涌现,文本分类已经成为处理海量数据的有效组织和管理方式。文本分类是将待分类样本集合与预先指定类别集合之间建立一个映射。根据预先指定类别数量不同,分为两类分类和多类分类。其中,两类分类针对正负两个类的分类问题,通常需要一个人工标注的训练集,包括正例和负例样本,在此基础上分类器进行学习,调整参数,建立适应于分类任务的模板,最终实现对样本的正确自动分类。目前,基于统计机器学习方法成为文本分类的主流技术,研究主要围绕文本表示模型、特征选择、分类模型等方面进行分类方法的提出与改进。近年来,国内外研究者开始注重分析训练样本集合对分类性能的影响因素,力图通过对其优化处理提高分类性能。研究发现,类间交叠程度是导致分类器性能下降的重要决定因素。为了提高类间交叠下分类器的性能,目前的处理方法主要是通过对训练样本集合中的“噪声”样本的去除来提高分类器性能,这些方法都没有继承被删除的训练样本所包含的有效信息,如果识别过程中遇到与裁掉训练样本相近的样本,则很有可能被识别错误。
发明内容
有鉴于此,本发明的目的在于提供一种面向类间交叠的两类文本分类方法,该方法不裁减任何训练样本,能够最大程度保持原有信息完整性,有利于增强对类模糊样本的识别能力,当类间交叠程度较高时,本发明的方法能够保证文本分类准确性。
为达到上述目的,本发明的方法包括以下步骤:
a.类间交叠区域训练样本识别
采用类间交叠区域训练样本识别方法形成类标号为A和B的两类训练样本向量,将类标号为A和B的两类训练样本向量分别划分为类标号分别为A1、A2和B 1、B2四类,其中A2、B2分别为类A和类B的处于交叠区域的训练样本的类标号,A1、B1分别两类剩余训练样本的类标号;
b.分类器构建
b1.第一层分类器构建:将类标号分别为A2、B2的训练样本向量集合合并,定义其类标号为C,在具有A1、B1和C三个类标号的训练样本向量集合上构建第一层最近邻分类器;
b2.第二层分类器构建:在类标号分别为A2、B2的训练样本集合上,提取相邻两个词性为动词或名词构成的二元词串作为特征,类标号分别为A2、B2的训练样本集合上构建第二层支持向量机分类器;
c.测试样本分类
c1.第一层分类:测试样本进入第一层分类器,第一层分类器判别测试样本的类标号为C,则输入第二层分类器,否则类标号转换后直接输出作为结果,此处的类标号转换方法为:若判别测试样本为A1类,则输出类标号为A,若测试样本判别为B1类,则输出类标号为B;
c2.第二层分类:对在c1步骤中被判别为类标号C的测试样本,采用第二层分类器对其进行分类,类标号转换后直接输出作为结果,此处的类标号转换方法为:若判别测试样本为A2类,则输出类标号为A,判别为B2类,则输出类标号为B。
进一步,所述类间交叠区域训练样本识别方法具体包括如下步骤:
以词作为特征,采用传统特征选择方法,提取最优特征,计算权重,形成训练样本向量;对训练样本集合中每个样本向量,利用KNN(k=3)算法计算与其最近的3个训练样本向量;利用判别准则,判断是否为类间交叠区域的训练样本;其中,传统特征选择方法为选择信息增益、互信息、文本证据权中任一种方法;判别准则为:若某训练样本向量,与其余弦相似度最高的三个训练样本向量所在类标号中,有两个与该样本向量类标号相反,则其属于类间交叠区域训练样本。
本发明的有益效果是:
本发明从信息粒度的角度分析了造成文本分类错误的原因,在没有删除任何训练样本的前提下,通过进一步处理类间交叠区域训练样本来提高分类器性能,尤其在类间交叠程度较高时的分类器性能;提出一种识别类间交叠区域训练样本识别方法,能够提取各类处于类间交叠区域的样本;构建不同于一般方法中的两层分类器,本发明方法中的第二层分类器构建在两类处于类间交叠区域的样本上,而非所有训练样本上;考虑到第二层分类器的训练样本之间相似性较大,样本数目较小,在第二层分类器的特征选择上,采用包含更多语义的二元词串作为特征,支持向量机作为分类方法;最后,输出结果为两层分类器分类结果之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910227303.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:运动物体防碰撞装置
- 下一篇:多级推导型证券行情趋势精准追踪方法