[发明专利]大规模文本分类的方法有效
申请号: | 201510024552.0 | 申请日: | 2015-01-18 |
公开(公告)号: | CN104598586B | 公开(公告)日: | 2018-04-17 |
发明(设计)人: | 赵旭;李建强;桂琪;亢阳阳;孙靖超;田猛 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 大规模文本分类的方法涉及计算机领域,为实现兼顾精度的大规模学习,需要通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。该大规模文本分类的方法包括将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器;对待测样本进行分类,实现多分类器共同决策。本发明将集成学习框架应用于大规模文本分类上,可以使现有的分类方法适用于大规模文本分类,提高分类效率。 | ||
搜索关键词: | 大规模 文本 分类 方法 | ||
【主权项】:
一种大规模文本分类的方法,其特征在于步骤如下:步骤1:将文本数据转换为向量数据:将文本数据转换为TF‑IDF向量数据,使文本数据成为多维向量数据;步骤2:分割大规模文本数据集为子集;步骤3:以分布式计算方法训练子分类器:根据样本分割结果,以各个子集分别训练各自的子分类器;具体包括训练过程中采用分布式计算的方式,由多台电脑同时负责子分类器的训练,提高大规模文本数据集训练分类器的效率;步骤4:选择分类器处理待测样本:根据测试样本的向量数据,选取所需的子分类器对测试样本进行分类;具体包括:当测试样本D进行分类时,首先通过D的向量信息,选取距离D最近的数个子集所对应的子分类器,组成子分类器集合距离计算公式为之后选取子分类器与D的夹角余弦最小的1‑2个子分类器加入集合M;然后对M中的各子分类器给予不同的权重,权重依据子集与D的距离而定,w(i)=∑c(i)/c(i),w为权重,c为距离,i为M中的子分类器序号,之后使用M中的各子分类器对D进行分类,投票决策结果取决于各分类器对待测样本的分类结果的权重和,将结果按照类别,把权重相加,取权重最大的类别作为待测样本的结果;步骤5:多个子分类器共同决策:这是集成学习方法在大规模文本分类中的应用,为实现兼顾精度的大规模文本分类,通过构建具有大差异性的多个子分类器,并实现多个子分类器对测试样本共同决策。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510024552.0/,转载请声明来源钻瓜专利网。
- 上一篇:发票真伪查询方法和系统
- 下一篇:信息搜索方法及装置