[发明专利]基于类别之间相关性学习的中文文本分类方法无效
申请号: | 201110268825.8 | 申请日: | 2011-09-13 |
公开(公告)号: | CN102332012A | 公开(公告)日: | 2012-01-25 |
发明(设计)人: | 吴娴;杨兴锋;张东明;何崑 | 申请(专利权)人: | 南方报业传媒集团 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 杨晓松 |
地址: | 510601 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于类别之间相关性学习的中文文本分类方法,首先对文档进行分词,通过统计词频进行特征粗选择,然后根据词项和类别之间的辨别指数进一步确定具有代表性的词项构成精选择后的特征词项。根据特征词项索引,训练文档采用tfidf权重和辨别指数权重共同表示。接着,分别构建一组对应于不同投影向量的两类分类器,并训练得到表示两两类别之间相关性的码矩阵。最后,将新文档的多向量表示投影到所有两类分类器,引入码矩阵,计算每个类别与文档的相似度,将相似度最大输出作为新文档的类别判定结果。本发明基于类别之间的相关性学习结果进行新文档的分类,在保证分类性能的同时,提升算法的运行效率。 | ||
搜索关键词: | 基于 类别 之间 相关性 学习 中文 文本 分类 方法 | ||
【主权项】:
基于类别之间相关性学习的中文文本分类方法,其特征在于,具体包括以下步骤:(1)训练过程:(1 1)特征选择:对于所有的中文词项,存在一本标准词典,词典中包含完备的词项集合,词项集合的全部词项依据拼音音序的先后顺序构成词项索引,特征选择的目标即是从词典中挑选具有代表性的词项构成特征词项,同样依据拼音音序构成特征索引,具体过程是:读入所有的训练文档,对文档进行分词,将训练文档分词后,根据标准词典中的词项索引顺序依次统计出每个词项的词频;挑选出训练文档中出现频繁的词项,构成粗选择后的特征子集,根据粗选择特征子集中各个词项与类别之间有关概率的指数,进一步确定精选择后的代表性词项,所有类别中的代表性词项构成特征集合,并且根据拼音音序构成特征索引;(1 2)训练文档的表示:将每一个训练文档用一个向量表示,向量的维数即特征选择后词项索引大小,向量中的每一个元素由tfidf权重和辨别指数权重的乘积构成,tfidf是文档中词项的词频和类别中词项的文频的统计表示,辨别指数权重是根据步骤(1 1)所述的有关频率的指数所做的一个平滑函数,值在0 1之间;(1 3)训练文档类别之间的相关性学习:首先将多类之间的文本分类问题分解为多个两类文本分类问题,即对于某一类别ck,将属于类别ck的训练样本作为正样本,不属于类别ck的训练样本作为负样本,然后采用脊回归方法训练两类分类器;对所有类别文档分别训练即得到一组两类分类器,同时计算类别之间的相关性构成已知样本训练码矩阵CM,其中码矩阵的第k行第k′列表示类别ck和ck′之间的相关性;(2)新文档的类别判定过程:(2 1)新文档的表示:假设语料中的文档分为K个类别,对于一个新文档,它的类别未知,将其投影到所有的K个类别,并对应于步骤(1 1)提取的特征词项按拼音音序构成的特征词项索引,将新文档用矩阵形式表示,矩阵的行表示所有可能K个类别的索引,矩阵的列代表特征词项索引,元素值采用步骤(1 2)所述训练文档中值的计算方法表示;(2 2)新文档的类别判定:将步骤(2 1)中得到的表示新文档的矩阵投影到步骤(1 3)所得到的那组两类分类器中,并根据已知样本训练码矩阵CM计算新文档属于每个类别的相似度,将相似度最大的类别赋予新文档,作为其判定类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方报业传媒集团,未经南方报业传媒集团许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110268825.8/,转载请声明来源钻瓜专利网。