[发明专利]一种基于属性加权的朴素贝叶斯分类模型改进方法在审
申请号: | 201910437156.9 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110222744A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 岳希;唐孟轩;唐聃;高燕 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 加权 分类模型 贝叶斯 冗余属性 改进 剔除 数据处理分类 贝叶斯模型 独立性假设 数据预处理 分类结果 更新数据 加权系数 条件概率 先验概率 训练集 弱化 分组 分类 更新 统计 | ||
1.一种基于属性加权的朴素贝叶斯分类模型改进方法,其特征在于,包括如下步骤:
步骤S1、数据预处理:将连续型的数据根据高斯分割进行数据离散化,对于非数字类的信息全部转化为数字后,再进行离散化处理;
步骤S2、计算分组斯皮尔曼系数:对于相关性大的组合进行属性融合,剔除冗余属性更新数据集;
步骤S3、求出各类的先验概率和类条件概率:采用拉普拉斯方法计算出各类的先验概率和类条件概率;
步骤S4、计算更新后的训练集每个属性的加权系数;其中,计算方法包括:
步骤S41、计算平均置信度W1;
步骤S42、计算关联度得分ReliefF系数W2;
步骤S43、根据W1和W2计算新的加权系数W;
步骤S5、根据加权后的改进模型进行分类,并统计分类结果;
其中,步骤S41中,具体的平均置信度属性加权过程如下:
A、属性A有五个类别分别为A1~A5,C为类别集合存在三个类别y1~y3;
B、分别对三个类别找到三个类调节概率最大的值,即找到最大的条件概率分别为P(Ai|y1)、P(Aj|y2)、P(Ak|y3);
C、令T为代表属性的平均置信度,即与分类结果的关联程度,T值越大则表示关联程度越高;
D、通过公式得到一个加权系数;式中,AC(i)代表属性变量Ai的平均置信度,m代表样本中的属性数;
其中,步骤S42中,具体的ReliefF算法加权过程如下:
每次从训练样本集中随机抽取一个样本R,然后从和R同类的样本集中找出R的k个近邻样本,从每个R的不同类的样本集中据找出k个邻近样本,然后更新每个特征的权重,计算公式如下:
式中,diff(A,R1,R2)表示样本在R1和R2属性A上的差,Mj(C)表示中第j个最邻近样本。
2.根据权利要求1所述的一种基于属性加权的朴素贝叶斯分类模型改进方法,其特征在于,所述步骤S1中,数据离散化处理采集高斯分布进行分割,具体流程如下:
A、随机选择数据集中的一列属性A;
B、按照训练集将属性A分为A1、A2、A3;
C、假设A1、A2、A3数据都服从高斯分布,计算其均值μ1、μ2、μ3和方差根据均值和方差得到其概率密度函数:
D、计算相邻的两组数据,A1、A2、A3的概率密度函数的交点对应的具体数值即为分割点;
E、利用焦点对特征属性列中的元素值进行分类,相同的类别取同一值,即连续数据离散化。
3.根据权利要求1所述的一种基于属性加权的朴素贝叶斯分类模型改进方法,其特征在于,所述步骤S3中,计算各类的先验概率和类条件概率采用拉普拉斯方法,具体计算公式如下:
其中,Yya是训练集中类别yi且属性x取值为xj的例子总数,Yy是类别为yi的总数,N是属性x所有的可能取值个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910437156.9/1.html,转载请声明来源钻瓜专利网。