[发明专利]一种基于改进朴素贝叶斯的个人收入分类方法有效
申请号: | 201710323947.X | 申请日: | 2017-05-10 |
公开(公告)号: | CN107169515B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 宁可;孙同晶;曹红 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/00 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 朴素 贝叶斯 个人 收入 分类 方法 | ||
1.一种商品推荐方法,对用户的收入水平进行分类,然后根据收入水平对用户进行分类,再对不同类的用户推荐不同的商品;其特征在于对用户的收入水平分类方法包括以下步骤:
步骤(1)、获取用于甄别居民收入水平的数据集,其中用于甄别居民收入水平的数据集属性变量为用于对居民收入水平进行分类的信息,包括年龄、工种、学历、性别、工作地点;
上述属性变量包括连续型属性和离散文字型属性;
步骤(2)、对步骤(1)获取的离散文字型属性进行量化处理:
从离散文字型属性中选择一个属性,将其中文字相同的元素用相同数字表示,文字内容不同的元素用不同数字表示;
步骤(3)、对步骤(1)获取的数据集中连续型属性进行离散化处理:
3.1从数据集中选择连续型属性A所有元素;
3.2根据数据集中已存在的分类结果记为C1,C2,…,Cn,将连续型属性A所有元素中分属不同类别的元素集合记为Ac1,Ac2,…,Acn;
3.3计算Ac1,Ac2,…,Acn均值μ1,μ2,…,μn和方差
3.4采用高斯公式计算各相邻两个分属类别元素集Aci和Ac(i+1)的交点xi;交点的计算公式如下:
其中1≤i≤n-1;
3.5将交点按从小到大的顺序进行排列,并以排序后的交点为分割点对属性A的所有元素进行分类,重置元素集Ac1,Ac2,…,Acn;
3.6将3.5处理后的同属一类的所有元素用一个常数来代替,属于不同类别的则必须使用不同的常数来代替;
3.7采用步骤3.1-3.6对其他的连续型属性进行离散化处理,直到所有的连续型属性皆处理完毕,整理归并;
步骤(4)、对步骤(2)-(3)初步处理后数据集中存在类条件概率为0的情况进行处理;
通过使用拉布拉斯校准在每一属性的类条件概率对应的属性数量值上加1,从而避免0的出现;
步骤(5)、求出步骤(4)处理后各属性各类的先验概率和类条件概率P(Mi|Cj),其中Mi表示属性M中第i个属性类别,Cj表示分类结果C中第j个类别;
步骤(6)、采用改进的关联规则算法来判断属性之间的相关性,判断出关联度较高的属性:
6.1选择属性类别个数相同的属性,判断同一分类结果Ck下任意两个属性类别的关联程度:
P(Mi|Ck)-P(Ni|Ck),i≤n,k≤n;
若所有关联程度绝对值均小于0.2,则说明在分类结果Ck中,属性M和N的相关度较高,故需要继续判断其他分类结果中属性M和N的相关度;若存在大于0.2的情况,则认为这两个属性的相关程度不高,故无需继续进行判断;
6.2若在所有的分类结果中,属性M和属性N的关联度仍是较高,则从其中任意选择一个属性保留,将另一个属性删除;若两个属性的关联度在各分类结果下存在偏低的情况,则将两个属性均保留;
6.3对其他属性类别个数相同的属性根据步骤6.1-6.2操作进行相关度判断,并根据结果对数据集中的属性进行删除和保留,直到都所有属性类别个数相同的属性被判断完毕,更新数据集;
步骤(7)、采用属性加权来改变每个属性的权重,进而提升准确率;
7.1各分类结果下寻求属性M中最大值类条件概率,记为P(Mi|C1),P(Mj|C2),…,P(Mk|Cn);若属性M的属性类别重复出现,则说明属性M的属性类别与分类结果的关联度偏低,认为属性M不是一个好的属性,故删除之;若属性M的属性类别均不一样,则说明属性M的属性类别与分类结果的关联度较高,认为属性M是一个好的属性,故保留之,进行步骤7.2;
7.2根据步骤7.1得到的最大值类条件概率,计算属性M的平均置信度,即与分类结果的关联度:
其中T的值越大,说明关联程度越高;
7.3根据步骤7.2得到的属性M的平均置信度,并依据上述步骤得到其他属性的置信度,计算次方系数α=1-T,则属性加权后的公式为即属性加权后的贝叶斯公式分子取最大值时对应的Ci值;
7.4根据步骤7.1-7.3,对其他的属性进行与分类结果的相关性判断,并据此进行删除或者加权操作;
步骤(8)、分类判断过程;
多属性的贝叶斯基础公式为:
步骤7)中则有求出的Ci即所需的分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710323947.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能美容补水仪
- 下一篇:一种基于重心移动的自动平衡办公桌