[发明专利]基于属性值频率的实例加权方法及贝叶斯分类方法在审
申请号: | 201710648300.4 | 申请日: | 2017-08-01 |
公开(公告)号: | CN107506788A | 公开(公告)日: | 2017-12-22 |
发明(设计)人: | 蒋良孝;徐文强 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司42238 | 代理人: | 郝明琴 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 属性 频率 实例 加权 方法 贝叶斯 分类 | ||
技术领域
本发明涉及一种数据分类方法,具体涉及一种基于属性值频率的实例加权方法及贝叶斯分类方法。
背景技术
贝叶斯分类算法通常能运用到大型数据库中,而且方法简单、分类准确率高、速度快。
例如:设一个训练实例集x包括n个训练实例和包括m个属性变量A1,A2,…,Am,该训练实例集x就可表达成一个属性值矢量<a1,a2,…,am>,其中ai是属性变量Ai的取值。令C表示类变量,c表示C的取值,实例加权的朴素贝叶斯用如下公式1来分类x。
式中先验概率P(c)和条件概率P(aj|c)的估算不是在原始的训练实例集上进行,而是在实例加权后的训练实例集上进行,具体的计算公式如下:
式中n是训练实例集中训练实例的数目,nc是训练实例集中类别的数目,nj是属性变量Aj属性值的数目,ci是训练实例集中第i个训练实例的类标记,wi是训练实例集中第i个训练实例的权值,aij是训练实例集中第i个训练实例的第j个属性值,δ(ci,c)是一个二值函数,当Ci=C时取值为1,否则取值为0。
从上面的分类公式可以看出,如何学习每一个训练实例的权值wi(i=1,2,…,n)成了学习实例加权的朴素贝叶斯的关键,为此提出了很多经典的实例加权方法。例如,局部加权的朴素贝叶斯(简记为LWNB),实例加权的朴素贝叶斯(简记为IWNB),提升的朴素贝叶斯(简记为BNB),判别加权的朴素贝叶斯(简记为DWNB)。在这些方法中,局部加权的朴素贝叶斯(LWNB)中的实例加权方法是一个消极的学习方法,每次预测一个测试实例x时都需要构建一个朴素贝叶斯分类器,具有较高的时间复杂度。实例加权的朴素贝叶斯(IWNB)中的实例加权方法虽然降低了时间复杂度,但是计算权重的过程和公式较为粗糙,且IWNB仅考虑了同一个属性中频次最高的属性值而忽略了该属性中的其他属性值对实例权值的影响。提升的朴素贝叶斯(BNB)和判别加权的朴素贝叶斯(DWNB)中的实例加权方法虽然都考虑通过迭代构建多个分类器以优化实例的权值,但是都需要进行多次的分类器构建过程,这在一定程度上影响了这些方法的推广应用,尤其是在大数据集上的应用。
发明内容
为了解决上述问题,本发明的目的是为朴素贝叶斯提供一个简单、快速、且有效的实例加权方法,从而有效解决了上述问题。
本发明提供的技术方案是:一种基于属性值频率的实例加权方法,包括如下步骤:
步骤101:设一个训练实例集x包括n个训练实例和包括m个属性变量A1,A2,…,Am,ai是属性变量Ai的取值,训练实例集x中第i个训练实例的第j个属性值为aij,用以下公式计算属性值aij训练实例集中出现的频率:
步骤102:基于上述公式得到的频率F(aij),对于训练实例集x中第i个训练实例,用以下公式得到它的权值wi:
上式中nj是属性变量Aj属性值的数目,通过上式得到训练实例集x中每一个训练实例的权值。
一种依托于上述加权方法的贝叶斯分类方法,包括如下步骤:
步骤201:用步骤102得到的每一个训练实例的权值算出先验概率P(c)和条件概率P(aj|c);
步骤202:将先验概率P(c)和条件概率P(aj|c)代入贝叶斯公式,得到分类结果。
优选地,步骤201中的先验概率P(c)和条件概率P(aj|c)由以下公式得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710648300.4/2.html,转载请声明来源钻瓜专利网。