[发明专利]一种基于Spark的朴素贝叶斯中文文本并行分类方法在审
申请号: | 201910700886.3 | 申请日: | 2019-07-31 |
公开(公告)号: | CN112307203A | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 王志强 | 申请(专利权)人: | 上海狼道信息科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 李敏 |
地址: | 201306 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 朴素 贝叶斯 中文 文本 并行 分类 方法 | ||
1.一种基于Spark的朴素贝叶斯中文文本并行分类方法,其特征在于,所述方法包括以下步骤:
步骤一,对中文文本进行预处理操作;
步骤二,对预处理后的中文文本用向量表示,对其进行根据贝叶斯定理分类,并存储于分布式文件系统;
步骤三,读取分布式文件系统的中文文本向量,形成弹性分布式数据块,进行映射操作并叠加;
步骤四,对映射后的中文文本向量进行先验概率计算和条件概率计算得到中文文本的类别。
2.根据权利要求1所述的一种基于Spark的朴素贝叶斯中文文本并行分类方法,其特征在于,所述步骤一中,所述预处理操作包括分词操作、去停用词操作、词频统计操作、特征选择操作;
所述分词操作,用于把中文文本按照中文文本中词的含义进行切分,并且词与词之间用空格隔开;
所述去停用词操作,用于建立通用中文文本词表,并且按照此表过滤中文文本中的停用词;
所述词频统计操作,用于统计给定的中文文本中词在中文文本中出现的次数;
所述特征选择操作,用于从中文文本特征中选取一个特征子集。
3.根据权利要求2所述的一种基于Spark的朴素贝叶斯中文文本并行分类方法,其特征在于,所述步骤二中,每一维向量由特征项及其权重组成,中文文本x的向量化表示为:
x=(a1:w1,a2:w2,...ai:wi)
其中,ai为中文文本x的第i个特征项,wi为第i个特征项的权重;
权重w表现为:
其中,w(ai,x)为特征项ai在中文文本x中的权重,tf(ai,x)为特征项ai在中文文本x中的词频,N为训练文本的总数,ni为训练文本集中出现特征项ai的文本数,分母为归一化因子。
4.根据权利要求3所述的一种基于Spark的朴素贝叶斯中文文本并行分类方法,其特征在于,所述步骤三中,弹性分布式数据块中的中文文本x的向量通过Map函数映射成Label,(1,Feature),其中,Label为类别序列,Feature为同一类别下训练文本的特征项;
通过combineByKey函数对Label,(1,Feature)中相同Label下的特征项累加,得到Label,(Count,FeaturesSum),其中,Label为类别序列,Count为对应类别下的训练文本总数,FeaturesSum为同一类别下所有训练文本对应的特征项之和。
5.根据权利要求4所述的一种基于Spark的朴素贝叶斯中文文本并行分类方法,其特征在于,所述步骤四中,设中文文本x共有i个类别的训练文本,形成集合C为:
C={y1,y2,...,yi};
设i个类别的的训练文本的先验概率集合D表现为:
D={P(y1),P(y2),...,P(yi)};
设i个类别的训练文本的条件概率表现为:
其中,
根据公式(3),采用加权TFIDF权值计算:
其中nj为第j特征项的词频;
对先验概率加入平滑因子λ后的比值取对数,表现为:
log(P(yi))=log((ni+λ)/(Label*λ+N)) (5),
其中,ni为类别i下的训练文本数,N为总训练文本数,Label为类别序列;
对条件概率加平滑因子λ后的比值取对数,表现为:
log(p(aj|yi))=log(CountF(i)(j)+λ)-log(CountF(i)+CountF*λ) (6),
其中,CountF为特征项总数,CountF(i)为在i分类下的特征项总数,CountF(i)(j)为在i分类下j特征项的出现数量;
根据公式(3)、公式(4)、公式(5)、公式(6),得到分类器:
按照公式(7)计算得出中文文本x的每个训练文本类别的概率,取训练文本最大概率作为中文文本x的类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海狼道信息科技有限公司,未经上海狼道信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910700886.3/1.html,转载请声明来源钻瓜专利网。