[发明专利]一种对文本进行分类的方法及装置有效
申请号: | 201110177822.3 | 申请日: | 2011-06-28 |
公开(公告)号: | CN102214233A | 公开(公告)日: | 2011-10-12 |
发明(设计)人: | 赵大哲;栗伟;杨金柱;覃文军;李博 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 马敬;逯长明 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种对文本进行分类的方法及装置,所述方法包括:构建一个类别空间,该类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。应用本发明,可以根据文本内容所表达的含义准确、高效的对高维文本进行分类。 | ||
搜索关键词: | 一种 文本 进行 分类 方法 装置 | ||
【主权项】:
一种对文本进行分类的方法,其特征在于,构建一个类别空间,所述类别空间包括多个坐标轴,每个坐标轴代表一个文本类别;计算任一训练文本中所包含词项在所述类别空间中的表示向量,获得训练文本集所有词项在所述类别空间中的表示向量;根据待分类文本所包含的词项及所述词项在所述类别空间中的表示向量,获得待分类文本在所述类别空间中的表示向量;计算所述待分类文本在所述类别空间中的表示向量与所述类别空间中各个坐标轴对应的基向量的余弦相似度值;将最大的余弦相似度值所对应的坐标轴所代表的文本类别作为待分类文本的类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110177822.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型节能环保燃烧机
- 下一篇:一种稳焰火盖