[发明专利]一种处理现实生活中分类型数据的有效方法在审
申请号: | 201910935269.1 | 申请日: | 2019-09-29 |
公开(公告)号: | CN111160382A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 李顺勇;张苗苗;张钰嘉 | 申请(专利权)人: | 山西大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/2458;G06F16/28 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 程园园 |
地址: | 030006*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 处理 现实生活 中分 类型 数据 有效 方法 | ||
本发明公开了一种处理现实生活中分类型数据的有效方法,包含以下步骤:步骤1,随机从含有n个样本的数据集X中选取k个初始点,k为数据集X的分类数目;步骤2,计算每个对象到k个初始点的距离,将对象分配到与其距离最小的初始点类中,得到k个簇;步骤3,计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心,类中心表示为wh;步骤4,重复步骤2、步骤3,直到类中心wh不变为止。本发明的核心是基于分类型矩阵对象数据的MD fuzzy k‑modes聚类算法,大数据时代,利用MD fuzzy k‑modes算法对多条记录进行聚类,能更易发现顾客的消费偏好,从而做出更有针对性的推荐。
技术领域
本发明涉及先进计算与数据处理领域,尤其涉及一种处理现实生活中分类 型数据的有效方法。
背景技术
在数据挖掘中,算法的输入在大多数情况下是数据集X,也称为表或矩阵。 在许多实际应用中,数据库通常包含多个表,这些表之间存在一对一、一对多 以及多对多的关系。
例如,顾客在购物时可能同时购买多个产品,由多个特征向量描述的对象 称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集。表1中描述了 来自http://www.taobao.com的真实数据集。表1有两部分,左半部分描述用户的 基本信息,右边的则记录每个用户在不同时间点访问不同品牌的信息,其中属 性“访问时间”代表用户在同一天访问一个品牌的时间。我们将左边的部分称为主 表,右边的部分称为数据库中的明细表,表中两个部分存在一种典型的一对多 关系。
表1中的数据具有以下特点:(1)相关性,主表和明细表中的数据可能有一定 的相关性,不同性别或年龄的用户可能有不同的偏好。例如,24岁女性用户访 问了大多数女性用户通常使用的商品,如JOSINY和WETHERM;然而,40岁 的女性使用者访问了男性或女性使用的商品,因为她需要照顾他们的家人。(2) 一对多性,主表中的每个用户对应于明细表中的多个记录。此外,不同用户访 问的品牌数量在表1中往往是不同的。例如,用户10944750有11条记录,而 用户8149250有4条记录。(3)混合性,在大多数情况下,对象由类别属性和数 字属性一起描述。例如,在明细表中,“品牌名称”是类别属性,而“访问时间” 是一个数字属性。(4)演化性,有些属性值会随着时间的推移而改变。例如,一 个用户在这个月里反复访问一个品牌,但是在下个月该品牌可能不会被他或她 访问。换句话说,用户行为的变化是一个随时间变化的动态演化过程。
从表1明细表部分可以看出,每个用户至少访问一个品牌,一个品牌可能 会被许多用户浏览。此外,一个品牌可能会在一天内被用户多次访问。当然, 它也可能在几天内被用户多次访问。显然,如果用户多次访问某个品牌,他或 她可能对这种商品感兴趣。例如,对于用户10944750,每年连续四个月访问 JOSINY,每个月有几次访问。因此,我们可以预测用户可能非常喜欢JOSINY, 用户10944750只访问一次SEMIR,我们知道与JOSINY相比,用户可能不太喜欢 它。
表1所示的这种数据在银行、保险、电信、零售和医疗数据库中非常普遍, 因此,有必要开发一种方法,从明细表而不是主表中发现具有不同行为模式的 用户组。因为行为分析可以帮助管理者获得更有价值的决策信息。
聚类分析是一种无监督算法,它的目标是按照某种相似性度量将数据集中, 相似度较大的数据分到同一个簇,尽可能使簇内的数据相似性较大,簇间数据 相似性较小。传统的聚类算法一般是对单值属性数据进行聚类,但在许多实际 应用中,每个对象通常被多个特征向量所描述。由多个特征向量描述的对象称 为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集,若利用已有的聚 类算法处理该类数据,需用先验知识来选取其中一条记录,这会严重损失信息 并破坏数据的原始性,且违背了以数据总体来做数据分析的初衷。因此,为了 利用多条消费记录发现客户的消费喜好,从而做出更具针对性的推荐,有必要 研究基于矩阵对象数据的聚类算法。目前,针对矩阵对象数据聚类算法的研究 相对较少,还有很多问题有待解决。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910935269.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用机器学习分析钙钛矿结构的方法
- 下一篇:内存信号相位差校正电路与方法