[发明专利]一种对文本进行分类的方法及装置有效
申请号: | 201110177822.3 | 申请日: | 2011-06-28 |
公开(公告)号: | CN102214233A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 赵大哲;栗伟;杨金柱;覃文军;李博 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马敬;逯长明 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 进行 分类 方法 装置 | ||
1.一种对文本进行分类的方法,其特征在于,
构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;
计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;
根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;
计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;
将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
2.根据权利要求1所述的方法,其特征在于,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:
1)计算词项tk在类别Cm中的频率TCFkm
TCFkm=γmtcf(tk,Cm)
其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常取1或 tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;
2)计算词项tk的类别频率CFk,
CFk=包含词项tk的类别数量,
其中,CFk记作cfk;
3)计算词项tk的逆向类别频率ICFk
4)计算词项tk在类别Cm中的权重wkm
5)计算训练文本集所有词项在所述类别空间中的表示向量
其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。
3.根据权利要求1所述的方法,其特征在于,获得待分类文本在所述类别空间中的表示向量的步骤为:
其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。
4.根据权利要求1所述的方法,其特征在于,计算余弦相似度值的步骤包括:
1)计算类别空间中轴上的基向量:
em=(cm1,cm2,...,cmM),其中m∈{1,...,M},i∈{1,...,M}
其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;
2)计算余弦相似度值
l∈{1,...,M}
其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。
5.根据权利要求1所述的方法,其特征在于,如果待分类文本为非词频统计特征数据,在设置待分类数据集中一个文本在文档集合中的表示模型之前,所述方法还包括:
对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110177822.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型节能环保燃烧机
- 下一篇:一种稳焰火盖