[发明专利]一种基于随机森林的伯努利朴素贝叶斯文本分类方法有效
申请号: | 202010125450.9 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111368076B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蒋良孝;张文钧;张欢;李超群 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F18/2415;G06F18/2431 |
代理公司: | 武汉诚儒知识产权代理事务所(普通合伙) 42265 | 代理人: | 邱琳 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 伯努利 朴素 斯文 分类 方法 | ||
本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。本发明同时考虑了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,维持了模型的计算复杂性和简单性,并用大量实验验证了本发明的有效性。
技术领域
本发明涉及一种基于随机森林的伯努利朴素贝叶斯文本分类方法,属于人工智能数据挖掘分类技术领域。
背景技术
给定一个训练文档集Doc和一篇待分类的文档d,文档d被表示成单词向量的形式<w1,w2,…,wi,…,wm>,伯努利朴素贝叶斯(BNB)用公式(1)来为文档d分类。
式中,m是词库中所有不同单词的数目,q是训练文档的类别数目,cj表示第j个类别,wi(i=1,2,…,m)表示文档d中是否出现第i个单词,出现为1,不出现为0,先验概率P(cj)和条件概率P(wi|cj)分别用公式(2)和公式(3)来估计。
式中,n是训练文档集Doc中文档的数目,ck是训练文档集Doc中第k篇训练文档的类标记,ωki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0。
虽然BNB已经被证明具有不错的文本分类性能,但是它在分类过程中只考虑单词在文档中是否会出现,并没有考虑每个单词在文档中出现的频率信息。词频信息表征一个单词在文档中的出现次数,在很大程度上影响了分类器的性能。作为BNB的改进版本,多项式朴素贝叶斯(MNB)考虑到了所有单词在文档中出现的频率,大幅度提高了BNB的分类性能,具有更广阔的应用前景。不过MNB面临的一个系统性问题是,当一个类别的训练文档比其他类别的训练文档多很多时,样本个数较少的类别的影响权重便会降低。作为对MNB的补充和改进,补集朴素贝叶斯(CNB)被提出,用来处理类别数目不平衡的数据集。在MNB和CNB的启发下,提出了一种“一对多”的模型(简称为OVA),OVA对MNB和CNB做了合并,在计算条件概率时同时考虑了MNB和CNB计算条件概率的方法,具有不错的分类效果。尽管上述这些文本分类算法已经被证明具有较高的性能,但是它们的特征条件独立性假设在现实中很少成立。
发明内容
为了解决现有技术的不足,本发明提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,为BNB找到了一个合适的改进模型,不仅同时考虑到了随机森林与伯努利朴素贝叶斯模型之间优缺点的互补性,还维持了模型的计算复杂性和简单性。
本发明为解决其技术问题所采用的技术方案为提供了一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,并将预测样本转化为新的二进制特征表示的预测样本,将新的二进制特征表示的预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
本发明具体包括以下步骤:
(1)训练阶段具体包括以下过程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010125450.9/2.html,转载请声明来源钻瓜专利网。