[发明专利]一种对文本进行分类的方法及装置有效

专利信息
申请号: 201110177822.3 申请日: 2011-06-28
公开(公告)号: CN102214233A 公开(公告)日: 2011-10-12
发明(设计)人: 赵大哲;栗伟;杨金柱;覃文军;李博 申请(专利权)人: 东软集团股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 马敬;逯长明
地址: 110179 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 进行 分类 方法 装置
【权利要求书】:

1.一种对文本进行分类的方法,其特征在于,

构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;

计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;

根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;

计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;

将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。

2.根据权利要求1所述的方法,其特征在于,计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量的步骤包括:

1)计算词项tk在类别Cm中的频率TCFkm

TCFkm=γmtcf(tk,Cm)

其中tcf(tk,Cm)为词项tk在文本类别Cm中出现的次数,γm为权值,通常取1或 tk表示词项,k∈{1,...,S},S表示词典中词项数量,N表示文档集中文档数量,文本类别集合C={Cm},m∈{1,...,M},文本类别总数为M;

2)计算词项tk的类别频率CFk

CFk=包含词项tk的类别数量,

其中,CFk记作cfk

3)计算词项tk的逆向类别频率ICFk

4)计算词项tk在类别Cm中的权重wkm

5)计算训练文本集所有词项在所述类别空间中的表示向量

其中,w′k1,w′k2,...,w′kM分别代表wk1,wk2,...,wkM经过向量归一化处理后的权重值。

3.根据权利要求1所述的方法,其特征在于,获得待分类文本在所述类别空间中的表示向量的步骤为:

其中,i∈{1,...,N},nki表示词项tk在文档di中出现的次数;S表示词典中词项数量;M为文本类别总数,w’km为对权重wkm进行归一化处理后的权重值,xil为文本在空间中对应坐标轴所对应类型的权重值。

4.根据权利要求1所述的方法,其特征在于,计算余弦相似度值的步骤包括:

1)计算类别空间中轴上的基向量: 

em=(cm1,cm2,...,cmM),其中m∈{1,...,M},i∈{1,...,M}

其中,em为类别空间中的轴,Cm为文本类别,M为文本类别总数;

2)计算余弦相似度值

l∈{1,...,M}

其中,CosSim(Cm,di)为余弦相似度值,M为文本类别总数,Cm为类别空间中轴,xil为文本在空间中对应坐标轴所对应类型的权重值。

5.根据权利要求1所述的方法,其特征在于,如果待分类文本为非词频统计特征数据,在设置待分类数据集中一个文本在文档集合中的表示模型之前,所述方法还包括:

对待分类数据集Vi=(vil,...,viL)进行离散化处理和数据区间变换处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110177822.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top