[发明专利]一种基于属性加权的朴素贝叶斯分类模型改进方法在审
申请号: | 201910437156.9 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110222744A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 岳希;唐孟轩;唐聃;高燕 | 申请(专利权)人: | 成都信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京元本知识产权代理事务所 11308 | 代理人: | 王红霞 |
地址: | 610225 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于属性加权的朴素贝叶斯分类模型改进方法,涉及数据处理分类领域。本发明包括如下步骤:S1、数据预处理;S2、计算分组斯皮尔曼系数,剔除冗余属性,更新数据集;S3、求出各类的先验概率和类条件概率;S4、计算更新后的训练集每个属性的加权系数;S5、根据加权后的改进模型进行分类,并统计分类结果。本发明通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设,并且通过斯皮尔曼系数剔除了冗余属性,改进模型明显的提高了朴素贝叶斯模型的准确性和效率。 | ||
搜索关键词: | 加权 分类模型 贝叶斯 冗余属性 改进 剔除 数据处理分类 贝叶斯模型 独立性假设 数据预处理 分类结果 更新数据 加权系数 条件概率 先验概率 训练集 弱化 分组 分类 更新 统计 | ||
【主权项】:
1.一种基于属性加权的朴素贝叶斯分类模型改进方法,其特征在于,包括如下步骤:步骤S1、数据预处理:将连续型的数据根据高斯分割进行数据离散化,对于非数字类的信息全部转化为数字后,再进行离散化处理;步骤S2、计算分组斯皮尔曼系数:对于相关性大的组合进行属性融合,剔除冗余属性更新数据集;步骤S3、求出各类的先验概率和类条件概率:采用拉普拉斯方法计算出各类的先验概率和类条件概率;步骤S4、计算更新后的训练集每个属性的加权系数;其中,计算方法包括:步骤S41、计算平均置信度W1;步骤S42、计算关联度得分ReliefF系数W2;步骤S43、根据W1和W2计算新的加权系数W;步骤S5、根据加权后的改进模型进行分类,并统计分类结果;其中,步骤S41中,具体的平均置信度属性加权过程如下:A、属性A有五个类别分别为A1~A5,C为类别集合存在三个类别y1~y3;B、分别对三个类别找到三个类调节概率最大的值,即找到最大的条件概率分别为P(Ai|y1)、P(Aj|y2)、P(Ak|y3);C、令T为代表属性的平均置信度,即与分类结果的关联程度,T值越大则表示关联程度越高;D、通过公式得到一个加权系数;式中,AC(i)代表属性变量Ai的平均置信度,m代表样本中的属性数;其中,步骤S42中,具体的ReliefF算法加权过程如下:每次从训练样本集中随机抽取一个样本R,然后从和R同类的样本集中找出R的k个近邻样本,从每个R的不同类的样本集中据找出k个邻近样本,然后更新每个特征的权重,计算公式如下:式中,diff(A,R1,R2)表示样本在R1和R2属性A上的差,Mj(C)表示中第j个最邻近样本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学,未经成都信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910437156.9/,转载请声明来源钻瓜专利网。