[发明专利]一种文档分类方法和系统在审
申请号: | 201410449140.7 | 申请日: | 2014-09-04 |
公开(公告)号: | CN104239479A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 宗栋瑞;郭美思;吴楠 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 王丹;李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 分类 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,具体涉及一种文档分类方法和系统。
背景技术
随着网络技术的日益普及,网络中的数据量急剧增加,应用类型也非常丰富。数据挖掘技术充分利用现有信息资源,从大量数据中找出隐藏的知识,是一个强有力的发展方向。数据挖掘涉及到机器学习、模式识别、统计学、智能数据库、数据可视化和高性能计算等领域,其目的在于从大量数据中发现隐含的、新颖的、令人感兴趣的关系和规律。其中,文档分类是数据挖掘的一个重要方向。
现有技术中,通常使用传统的系统框架进行文档分类,在处理海量数据时,会导致分类时间长,系统性能低下。
发明内容
本发明提供了一种文档分类方法和系统,以解决现有技术中系统性能低下的缺陷。
本发明提供了一种文档分类方法,应用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步骤:
所述Map程序对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;
所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;
所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。
可选地,所述Map程序根据解析结果确定特征属性之后,还包括:
所述Map程序根据所述特征属性,分别对所述训练文档和所述待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档;
所述Map程序根据所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器,具体为:
所述Map程序根据格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;
所述Reduce程序使用所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果,具体为:
所述Reduce程序使用所述分类器对格式转换后的待分类文档进行分类,得到待分类文档的分类结果。
可选地,所述Map程序根据格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器,具体为:
所述Map程序根据所述格式转换后的训练文档对应的各个特征属性的取值范围以及对所述训练文档的分类结果,计算每个类别在所述训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,将所述出现频率和所述条件概率估计记录为分类器。
可选地,所述Reduce程序使用所述分类器对格式转换后的待分类文档进行分类,得到待分类文档的分类结果,具体为:
所述Reduce程序获取所述格式转换后的待分类文档的所有特征属性的取值范围,根据获取到的取值范围、每个类别在训练文档中的出现频率以及在每个类别下所有特征属性的各个取值范围的条件概率估计,计算所述待分类文档归属于各个类别的条件概率,并将数值最大的条件概率对应的类别作为所述待分类文档的分类结果。
可选地,所述Map程序所述对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分,具体为:
所述Map程序通过对训练文档和待分类文档进行解析,得到训练文档和待分类文档包含的属性,并从解析得到的属性中选取特征属性,并针对每个特征属性划分多个取值范围。
本发明还提供了一种文档分类系统,应用于Hadoop集群中,所述系统包括:
解析模块,用于对训练文档和待分类文档进行解析,根据解析结果确定特征属性,并对所述特征属性进行划分;
生成模块,用于根据所述解析模块确定的所述训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;
分类模块,用于使用所述生成模块生成的所述分类器对所述待分类文档进行分类,得到待分类文档的分类结果。
可选地,所述的系统,还包括:
转换模块,用于根据所述解析模块确定的所述特征属性,分别对所述训练文档和所述待分类文档进行格式转换,得到符合预设格式的训练文档和待分类文档;
所述生成模块,具体用于根据所述转换模块格式转换后的训练文档的特征属性以及对所述训练文档的分类结果,生成分类器;
所述分类模块,具体用于使用所述生成模块生成的所述分类器对所述转换模块格式转换后的待分类文档进行分类,得到待分类文档的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410449140.7/2.html,转载请声明来源钻瓜专利网。