[发明专利]一种基于改进朴素贝叶斯的个人收入分类方法有效
申请号: | 201710323947.X | 申请日: | 2017-05-10 |
公开(公告)号: | CN107169515B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 宁可;孙同晶;曹红 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于改进朴素贝叶斯的个人收入分类方法。该方法首先提出了基于连续型数据的类条件概率估计方法,用以确定各类的先验概率和类条件概率。其次,在分割后的数据集中引入拉普拉斯校准,避免0点影响过大的问题。再次,提出一种基于Apriori算法的改进关联规则算法,这种方法可以根据训练集的分类结果来衡量两个属性之间的密切关系。最后,引入属性加权的概念,从而解决朴素贝叶斯算法所有属性对结果影响相同的问题。 | ||
搜索关键词: | 一种 基于 改进 朴素 贝叶斯 个人 收入 分类 方法 | ||
【主权项】:
一种基于改进朴素贝叶斯的个人收入分类方法,其特征在于该方法包括以下步骤:步骤(1)、获取用于甄别居民收入水平的数据集,其中属性变量包括年龄、工种、学历、性别、工作地点等用于对居民收入水平进行分类的信息;上述收集的数据集属性变量包括连续型属性和离散型属性;步骤(2)、对步骤(1)获取的数据集中离散文字型属性进行量化处理:从离散文字型属性中选择一个属性,将其中文字相同的元素用相同的数字表示,文字内容不同的元素不得使用同一数字表示;步骤(3)、对步骤(1)获取的数据集中连续型属性进行离散化处理:3.1从数据集中选择连续型属性A;3.2根据数据集中已存在的分类结果记为C1,C2,…,Cn,将属性A中分属不同类别的元素集合记为Ac1,Ac2,…,Acn;3.3计算Ac1,Ac2,…,Acn均值μ1,μ2,…,μn和方差3.4采用高斯公式计算各相邻两个分属类别元素集Aci和Ac(i+1)的交点xi,记为q1,q2,…,qn‑1;交点的计算公式如下:12πσi2e-(xi-μi)22σi2=12πσi+1e-(xi+1-μi+1)22σi+12]]>其中1≤i≤n‑1;3.5将交点q1,q2,…,qn‑1按从小到大的顺序进行排列,并以其为分割点对属性A的所有元素进行分类,构成元素集A1,A2,…,An;3.6将3.5处理后的同属一类的所有元素用一个常数来代替,属于不同类别的则必须使用不同的常数来代替;3.7采用步骤3.1‑3.6对其他的连续型属性进行离散化处理,直到所有的连续属性皆处理完毕,整理归并;步骤(4)、对步骤(2)‑(3)初步处理后数据集中存在类条件概率为0的情况进行处理;通过使用拉布拉斯校准来避免0点影响过大的问题,在每一属性的类条件概率对应的属性数量值上加1,从而避免0的出现;步骤(5)、求出各属性各类的先验概率和类条件概率P(Ai|Cj),其中Ai表示属性A中第i个属性类别,Cj表示分类结果C中第j个类别;步骤(6)、采用改进的关联规则算法来判断属性之间的相关性,判断出关联度较高的属性:6.1选择属性类别个数相同的属性,判断同一总分类结果Ck下任意两个属性类别的关联程度:P(Ai|Ck)‑P(Bi|Ck),i≤n,k≤n;若所有关联程度绝对值均小于0.2,则说明在总分类结果Ck中,属性A和B的相关度较高,故需要继续判断其他总分类结果中属性A和B的相关度;若存在大于0.2的情况,则认为这两个属性的相关程度不高,故无需继续进行判断;6.2若在所有的总分类结果中,属性A和属性B的关联度仍是较高,则从其中任意选择一个属性保留,将另一个属性删除;若两个属性的关联度在各总分类结果下存在偏低的情况,则将两个属性均保留;6.3对其他属性类别个数相同的属性根据步骤6.1‑6.2操作进行相关度判断,并根据结果对数据集中的属性进行删除和保留,直到都所有属性类别个数相同的属性被判断完毕,更新数据集;步骤(7)、采用属性加权来改变每个属性的权重,进而提升准确率;7.1各总分类结果下寻求属性A中最大值类条件概率,记为P(Ai|C1),P(Aj|C2),…,P(Ak|Cn);若属性A的属性类别重复出现,则说明属性A的属性类别与总分类结果的关联度偏低,认为属性A不是一个好的属性,故删除之;若属性A的属性类别均不一样,则说明属性A的属性类别与总分类结果的关联度较高,认为属性A是一个好的属性,故保留之,进行步骤7.2;7.2根据步骤7.1得到的最大值类条件概率,计算属性A的平均置信度,即与总分类结果的关联度:其中T的值越大,说明关联程度越高;7.3根据步骤7.2得到的属性A的平均置信度,并依据上述步骤得到其他属性的置信度,计算次方系数α=1‑T,则属性加权后的公式为即属性加权后的贝叶斯公式分子取最大值时对应的Ci值;7.4根据步骤7.1‑7.3,对其他的属性进行与总分类结果的相关性判断,并据此进行删除或者加权操作;步骤(8)、分类判断过程;多属性的贝叶斯基础公式为:P(Ci|X)=P(Ci)×P(X|Ci)P(X)]]>步骤7)中则有求出的Ci即为元素对应的最大类别,得到所需的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710323947.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能美容补水仪
- 下一篇:一种基于重心移动的自动平衡办公桌