[发明专利]一种基于随机森林的伯努利朴素贝叶斯文本分类方法有效
申请号: | 202010125450.9 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111368076B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 蒋良孝;张文钧;张欢;李超群 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06F18/2415;G06F18/2431 |
代理公司: | 武汉诚儒知识产权代理事务所(普通合伙) 42265 | 代理人: | 邱琳 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 伯努利 朴素 斯文 分类 方法 | ||
1.一种基于随机森林的伯努利朴素贝叶斯文本分类方法,包括训练阶段和分类阶段,其特征在于:训练阶段包括以下过程:从训练文档集中选取训练样本构建采样集,利用采样集训练随机森林,将训练文档集中的训练样本重新输入随机森林进行预测得到新的训练样本,利用新的训练样本训练伯努利朴素贝叶斯文本分类模型;分类阶段包括以下过程:将预测样本用随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本,将二进制特征表示的中间预测样本输入伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记。
2.根据权利要求1所述的基于随机森林的伯努利朴素贝叶斯文本分类方法,其特征在于具体包括以下步骤:
(1)训练阶段具体包括以下过程:
(1-1)设训练文档集Doc中文档的数目为n,随机森林中随机树的数目为T;针对训练文档集,采用装袋方式处理:先从训练文档集Doc中随机选择一个文档作为训练样本放入采样集,再把该训练样本放回初始的训练文档集Doc,使得下次采样时该训练样本仍有机会被选中;经过n次采样,得到包含n个训练样本的采样集;将采样过程重复T次,得到T个分别含有n个训练样本的采样集;分别通过步骤(1-2)至(1-7)针对每个采样集训练随机森林中的一棵随机决策树;
(1-2)针对一个采样集构建一棵随机决策树,将这个采样集作为该随机决策树根节点处的样本集,设训练样本有m个单词,即m个特征,在决策树的每个节点分裂时,随机从m个特征中选取出kvalue个特征构成候选分裂特征集合A,kvalue的值使用公式(4)计算得到:
(1-3)给定当前分裂的节点上的样本集D,在计算单词w的分割点时,假定单词w在样本集D上出现了s个不同的频率值,即s个不同的特征值,将这些频率值按照从小到大进行排序,记为{w1,w2,…,ws};设基于划分点t,将样本集D分为第一样本集和第二样本集其中第一样本集包含单词w的频率值不大于t的样本,第二样本集包含单词w的频率值大于t的样本;对于单词w,通过公式(5)求出包含s-1个元素的候选划分点集合Tw:
(1-4)根据候选划分点集合Tw,利用公式(6)求得单词w针对样本集D的最优划分点:
式中,Gini_gain(D,w)表示单词w划分样本集D的最优基尼增益,|D|表示样本集D中的样本数目,Gini(D)用来求样本集D的基尼值,若当前样本集D中文档类别的数目为q,假定样本集D中第j类样本所占的比例为pj(j=1,2,…,q),通过公式(7)求得样本集D的基尼值:
(1-5)通过步骤(1-3)和步骤(1-4)得到了样本集D在单词w上的最优基尼增益划分点,按照这个步骤分别求出候选分裂特征集合A中其他属性的最优基尼增益划分点,然后用公式(8)计算得到当前节点的最优分裂单词w*:
若随机选择的kvalue个单词对应的最优基尼增益均不大于0,则从剩下的m-kvalue个单词中继续随机不重复地选择单词并求其最优基尼增益,直到第一个最优基尼增益大于0的单词出现为止,并将这个单词设置为分裂单词w*;若所有单词求得的最优基尼增益均不大于0,则将w*标记为空;
(1-6)若当前分裂点的最优分裂单词w*为空,表示当前节点没有适合用来分裂的单词,当前节点为叶子节点,叶子节点的类别为该节点所含样本最多的类别;否则,将步骤(1-5)产生的第一样本集和第二样本集分别放入当前节点的左子节点和右子节点,完成分裂;
(1-7)从根节点出发,若所有节点均不可继续分裂,则长树完成;
(1-8)训练好随机森林后,将训练文档集Doc中每一个训练样本重新输入随机森林中做预测,随机森林中的一棵随机决策树作为一个基分类器,在每个基分类器上分别得到所输入的训练样本的预测类别,对预测类别下标做一位有效编码产生二进制特征表示;用所有基分类器预测的类别下标对应的二进制特征表示组合生成新的训练样本,新的训练样本的维度为T*q;
(1-9)用新的训练样本构建新的训练数据集,使用新的训练集分别按照公式(2)和公式(3)估计先验概率和条件概率,训练伯努利朴素贝叶斯文本分类模型:
式中,P(cj)表示先验概率,P(wi|ci)表示条件概率,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,wj(i=1,2,…,m)表示是否出现第i个单词,出现为1,不出现为0,ck是训练文档集Doc中第k篇训练文档的类标记,wki表示第i个单词在第k篇训练文档中是否出现,出现为1,不出现为0,δ(α,β)是一个二值函数,α=β时取值为1,否则取值为0;
(2)分类阶段包括以下过程:
(2-1)按步骤(1-8),将预测样本用构建的随机森林进行预测,得到新预测样本,并将新预测样本转化为二进制特征表示的中间预测样本;
(2-2)将二进制特征表示的中间预测样本按照公式(1)用训练好的伯努利朴素贝叶斯文本分类模型做出最终预测,输出预测的类标记:
式中,m是训练文档集Doc中所有不同单词的数目,q是训练文档的类别数目,cj(j=1,2,…,q)表示第j个类别,ωi(i=1,2,…,m)表示预测文档d中是否出现第i个单词,出现为1,不出现为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010125450.9/1.html,转载请声明来源钻瓜专利网。