[发明专利]基于Hadoop的文本分类方法及装置有效
申请号: | 201410073364.2 | 申请日: | 2014-02-28 |
公开(公告)号: | CN103810293B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 万睿;张国强;谢浩安 | 申请(专利权)人: | 云宏信息科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙)44288 | 代理人: | 汤喜友 |
地址: | 510630 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于Hadoop的文本分类方法及装置。该方法包括将经过分词处理的文本保存至一训练数据集中;使不同类别的文本的数量相等;将训练数据集的文本文件写入SequenceFile文件中;通过MapReduce模块统计文本包含的词条和类别、按照TF‑IDF加权模型计算文本的每个词条的TF‑IDF值并根据TF‑IDF值将文本转换为用于贝叶斯分类器的一维向量、统计每个文本文件的文本的长度并根据长度对一维向量进行加权;得到分类模型;利用分类模型,对待分类的文本进行分类。本发明能解决传统的训练分类器数据不均衡的问题。 | ||
搜索关键词: | 基于 hadoop 文本 分类 方法 装置 | ||
【主权项】:
基于Hadoop的文本分类方法,其特征在于,包括以下步骤:步骤1、对训练用的文本进行分词处理,将每一个经过分词处理的文本保存至一训练数据集中对应的一个文本文件中;步骤2、对训练数据集的文本文件的文本进行采样,以使不同类别的文本的数量相等;步骤3、将训练数据集的文本文件写入SequenceFile文件中,并将SequenceFile文件上传至Hadoop文件系统;步骤4、通过MapReduce模块统计SequenceFile文件的文本文件的文本包含的词条和类别,其中,所述词条和类别分别对应贝叶斯分类器的属性值和类别标签;步骤5、通过MapReduce模块按照TF‑IDF加权模型计算SequenceFile文件的每个文本文件的文本的每个词条的TF‑IDF值,根据所述TF‑IDF值将文本转换为用于贝叶斯分类器的一维向量;步骤6、通过MapReduce模块统计每个文本文件的文本的长度,根据所述长度对一维向量进行加权,以使所有文本的权重相等;步骤7、利用一维向量,根据贝叶斯分类器,统计每个类别的先验概率和每个词条属于每个类别的先验概率,得到分类模型;步骤8、利用分类模型,对待分类的文本进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云宏信息科技股份有限公司,未经云宏信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410073364.2/,转载请声明来源钻瓜专利网。