[发明专利]数据聚类方法及装置在审

专利信息
申请号: 201811103301.1 申请日: 2018-09-20
公开(公告)号: CN110928957A 公开(公告)日: 2020-03-27
发明(设计)人: 赵振财 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F16/28 分类号: G06F16/28;G06F16/2458
代理公司: 北京博浩百睿知识产权代理有限责任公司 11134 代理人: 褚敏;宋子良
地址: 英属开曼群岛大开*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 方法 装置
【说明书】:

发明公开了一种数据聚类方法及装置。其中,该方法包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。本发明解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。

技术领域

本发明涉及数据处理技术领域,具体而言,涉及一种数据聚类方法及装置。

背景技术

数据聚类(Cluster analysis)是对于静态数据分析的一门技术,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。

当前,聚类技术正在蓬勃发展,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。

现有的聚类方法的中的阈值多为根据人工经验设定,在整个过程中不可改变,对于不同数据源和场景不能够自动选择合适阈值,聚类效果不佳。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据聚类方法及装置,以至少解决现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。

为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法,该包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。

进一步地,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果包括:对待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算多个类的聚类准确率;基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。

进一步地,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果包括:若聚类准确率小于预设阈值,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。

进一步地,若聚类准确率小于预设阈值,则更新聚类阈值之后,方法还包括:将更新后的聚类阈值存储在预设数据库中。

进一步地,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。

进一步地,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果包括:确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到聚类结果。

进一步地,计算多个类的聚类准确率包括:采用戴维森保丁指数算法计算多个类的聚类准确率。

进一步地,数据特征至少包括:数据类型、数据量、数据结构、应用场景。

进一步地,聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811103301.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top