[发明专利]一种文本维度压缩及尺度调整方法以及基于此的分类方法有效
申请号: | 200910076589.2 | 申请日: | 2009-01-09 |
公开(公告)号: | CN101464907A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 曾依灵;许洪波;吴高巍 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 王 勇 |
地址: | 100190北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 维度 压缩 尺度 调整 方法 以及 基于 分类 | ||
1.一种基于文本维度压缩及尺度调整的文本分类方法,包括下列步骤:
1)将待分类文本进行预处理,使用特征空间的特征向量表示待分类文本xj;
2)根据训练集中的样本x计算所述文本xj待投影的k个方向,其中k为文本xj所属语料的类别个数;
3)将所述文本xj投影到所述k个方向,获取压缩后待分类文本的坐标其中1≤i≤k;
4)根据训练集中的样本x计算每个类Ci在对应方向上投影的尺度相关统计量;
5)根据所述和所述尺度相关统计量,进行尺度调整操作,获取尺度调整后的所述文本xj的坐标
6)、基于所述坐标利用分类算法对所述文本xj进行分类。
2.根据权利要求1所述的方法,其特征在于,
所述步骤4)的所述尺度相关统计量是标准差σi;
所述步骤5)包括根据下述公式计算:
3.根据权利要求1或2所述的方法,其特征在于,
所述步骤2)包括:
21)根据公式计算每个类Ci的中心mi,其中ni表示所述训练集中类Ci的样本的个数;
22)根据公式计算语料整体中心m,其中n表示所述训练集中样本的总数;
23)根据公式mi-m计算第i个方向;
所述步骤3)包括:
31)根据公式将所述文本xj投影到所述k个方向,表示为
4.根据权利要求3所述的方法,其特征在于,所述步骤4)包括:
41)根据所述训练集中的样本x利用公式计算所述每个类Ci在对应方向上投影的尺度相关统计量。
5.根据上述权利要求中任一项所述的方法,其特征在于所述步骤1)包括:用向量空间模型表示所述文本xj。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910076589.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:晶体管相对精度模型方法
- 下一篇:制品调度控制方法