[发明专利]大规模文本分类的方法有效

专利信息
申请号: 201510024552.0 申请日: 2015-01-18
公开(公告)号: CN104598586B 公开(公告)日: 2018-04-17
发明(设计)人: 赵旭;李建强;桂琪;亢阳阳;孙靖超;田猛 申请(专利权)人: 北京工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06K9/62
代理公司: 北京思海天达知识产权代理有限公司11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 大规模 文本 分类 方法
【说明书】:

技术领域

发明涉及计算机领域,更具体地涉及集成学习以及大规模文本分类的方法。

背景技术

文本分类(Text categorization)是指在给定分类体系下,根据文本内容自动确定文本类别的过程,按预先指定的标准对文档进行归类这样用户不仅可以方便地浏览文档而且可以通过类别来查询所需的文档,20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率非常低。90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前在国内也已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

文本分类的研究可以追溯到上世纪六十年代,早期的文本分类主要是基于知识工程(Knowledge Engineering),通过手工定义一些规则来对文本进行分类,这种方法费时费力,且必须对某一领域有足够的了解,才能写出合适的规则。到上世纪九十年代,随着网上在线文本的大量涌现和机器学习的兴起,大规模的文本(包括网页)分类和检索重新引起研究者的兴趣。文本分类系统首先通过在预先分类好的文本集上训练,建立一个判别规则或分类器,从而对未知类别的新样本进行自动归类。大量的结果表明它的分类精度比得上专家手工分类的结果,并且它的学习不需要专家干预,能适用于任何领域的学习,使得它成为目前文本分类的主流方法。

但由于近年数据集规模逐渐增大,使得计算机处理大规模数据信息的时间成本急速增加,而现有的分类方法更多侧重于分类精度的提高,对大规模文本分类不能很好地解决。因此人们开始尝试将集成学习框架应用于分类算法之中,应用多分类器共同工作和共同决策的方法分担大规模数据的工作量,以扩大传统分类方法的应用范围,提高分析大规模数据的效率,但仍然存在扩展性的问题,难以满足大规模文本分类的要求。

目前将集成学习框架应用于大规模文本分类的研究并不多,现有技术中,期刊“(IJCSIS)International Journal of Computer Science and Information Security,Vol.12,No.8,August 2014”2014年8月出版的第12期第8卷中的由Ahmad Basheer Hassanat,Mohammad Ali Abbadi,

Ghada Awad Altarawneh,Karak,Jordan所著的论文“Solving the Problem of the K Parameter in the KNN Classifier Using an Ensemble Learning Approach;”中提出了应用集成学习方法解决KNN分类器中K值的问题。其中,将集成学习方法引入文本分类,很好的在传统KNN分类方法上(图1),实现了多个不同K值的KNN分类器同时对待测样本进行决策的功能。具体地,该方法针对不同的待测样本的向量信息,选取距离样本最近的个样本作为子集,同时对不同K值的KNN分类器给与不同的权重对待测样本进行决策,以权重最大的类别作为结果输出(图2)。

上述方法虽然将集成学习应用于文本分类之中,但是它在扩展度上仍然有局限性,和现有的算法类似,其目的是提高决策结果的精度,并不能使现有方法在处理数据的规模上得到强化。在实际应用中,大规模文本数据会对该方法有很大的影响,例如该方法针对大量待测样本时,运算非常耗时。

发明内容

本发明是鉴于以上所述的一个或多个问题做出的。

本发明提出了一种大规模文本分类的方法,其特征在于步骤如下:

步骤1:将文本数据转换为向量数据:

将文本数据转换为TF-IDF向量数据,使文本数据成为多维向量数据;

步骤2:分割大规模文本数据集为子集;

步骤3:以分布式计算方法训练子分类器:

根据样本分割结果,以各个子集分别训练各自的子分类器;

步骤4:选择分类器处理待测样本:

根据测试样本的向量数据,选取所需的子分类器对测试样本进行分类;

步骤5:多个子分类器共同决策:

这是集成学习方法在大规模文本分类中的应用,为实现兼顾精度的大规模文本分类,通过构建具有大差异性的多个子分类器,并实现多个子分类器对测试样本共同决策。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510024552.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top