[发明专利]一种处理现实生活中分类型数据的有效方法在审

专利信息
申请号: 201910935269.1 申请日: 2019-09-29
公开(公告)号: CN111160382A 公开(公告)日: 2020-05-15
发明(设计)人: 李顺勇;张苗苗;张钰嘉 申请(专利权)人: 山西大学
主分类号: G06K9/62 分类号: G06K9/62;G06F16/2458;G06F16/28
代理公司: 太原申立德知识产权代理事务所(特殊普通合伙) 14115 代理人: 程园园
地址: 030006*** 国省代码: 山西;14
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 处理 现实生活 中分 类型 数据 有效 方法
【说明书】:

发明公开了一种处理现实生活中分类型数据的有效方法,包含以下步骤:步骤1,随机从含有n个样本的数据集X中选取k个初始点,k为数据集X的分类数目;步骤2,计算每个对象到k个初始点的距离,将对象分配到与其距离最小的初始点类中,得到k个簇;步骤3,计算每个对象到k个中心的隶属度,并用启发式更新算法更新k个簇的类中心,类中心表示为wh;步骤4,重复步骤2、步骤3,直到类中心wh不变为止。本发明的核心是基于分类型矩阵对象数据的MD fuzzy k‑modes聚类算法,大数据时代,利用MD fuzzy k‑modes算法对多条记录进行聚类,能更易发现顾客的消费偏好,从而做出更有针对性的推荐。

技术领域

本发明涉及先进计算与数据处理领域,尤其涉及一种处理现实生活中分类 型数据的有效方法。

背景技术

在数据挖掘中,算法的输入在大多数情况下是数据集X,也称为表或矩阵。 在许多实际应用中,数据库通常包含多个表,这些表之间存在一对一、一对多 以及多对多的关系。

例如,顾客在购物时可能同时购买多个产品,由多个特征向量描述的对象 称为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集。表1中描述了 来自http://www.taobao.com的真实数据集。表1有两部分,左半部分描述用户的 基本信息,右边的则记录每个用户在不同时间点访问不同品牌的信息,其中属 性“访问时间”代表用户在同一天访问一个品牌的时间。我们将左边的部分称为主 表,右边的部分称为数据库中的明细表,表中两个部分存在一种典型的一对多 关系。

表1中的数据具有以下特点:(1)相关性,主表和明细表中的数据可能有一定 的相关性,不同性别或年龄的用户可能有不同的偏好。例如,24岁女性用户访 问了大多数女性用户通常使用的商品,如JOSINY和WETHERM;然而,40岁 的女性使用者访问了男性或女性使用的商品,因为她需要照顾他们的家人。(2) 一对多性,主表中的每个用户对应于明细表中的多个记录。此外,不同用户访 问的品牌数量在表1中往往是不同的。例如,用户10944750有11条记录,而 用户8149250有4条记录。(3)混合性,在大多数情况下,对象由类别属性和数 字属性一起描述。例如,在明细表中,“品牌名称”是类别属性,而“访问时间” 是一个数字属性。(4)演化性,有些属性值会随着时间的推移而改变。例如,一 个用户在这个月里反复访问一个品牌,但是在下个月该品牌可能不会被他或她 访问。换句话说,用户行为的变化是一个随时间变化的动态演化过程。

从表1明细表部分可以看出,每个用户至少访问一个品牌,一个品牌可能 会被许多用户浏览。此外,一个品牌可能会在一天内被用户多次访问。当然, 它也可能在几天内被用户多次访问。显然,如果用户多次访问某个品牌,他或 她可能对这种商品感兴趣。例如,对于用户10944750,每年连续四个月访问 JOSINY,每个月有几次访问。因此,我们可以预测用户可能非常喜欢JOSINY, 用户10944750只访问一次SEMIR,我们知道与JOSINY相比,用户可能不太喜欢 它。

表1所示的这种数据在银行、保险、电信、零售和医疗数据库中非常普遍, 因此,有必要开发一种方法,从明细表而不是主表中发现具有不同行为模式的 用户组。因为行为分析可以帮助管理者获得更有价值的决策信息。

聚类分析是一种无监督算法,它的目标是按照某种相似性度量将数据集中, 相似度较大的数据分到同一个簇,尽可能使簇内的数据相似性较大,簇间数据 相似性较小。传统的聚类算法一般是对单值属性数据进行聚类,但在许多实际 应用中,每个对象通常被多个特征向量所描述。由多个特征向量描述的对象称 为矩阵对象,由矩阵对象构成的数据集称为矩阵对象数据集,若利用已有的聚 类算法处理该类数据,需用先验知识来选取其中一条记录,这会严重损失信息 并破坏数据的原始性,且违背了以数据总体来做数据分析的初衷。因此,为了 利用多条消费记录发现客户的消费喜好,从而做出更具针对性的推荐,有必要 研究基于矩阵对象数据的聚类算法。目前,针对矩阵对象数据聚类算法的研究 相对较少,还有很多问题有待解决。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910935269.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top