[发明专利]数据聚类方法及装置在审
申请号: | 201811103301.1 | 申请日: | 2018-09-20 |
公开(公告)号: | CN110928957A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 赵振财 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 褚敏;宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 方法 装置 | ||
本发明公开了一种数据聚类方法及装置。其中,该方法包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。本发明解决了现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据聚类方法及装置。
背景技术
数据聚类(Cluster analysis)是对于静态数据分析的一门技术,是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
当前,聚类技术正在蓬勃发展,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性。
现有的聚类方法的中的阈值多为根据人工经验设定,在整个过程中不可改变,对于不同数据源和场景不能够自动选择合适阈值,聚类效果不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据聚类方法及装置,以至少解决现有技术中数据聚类处理过程中阈值通常是由人工基于经验进行设置,导致聚类效果不佳的技术问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据聚类方法,该包括:获取待聚类数据,并抽取待聚类数据的数据特征;从预设数据库中获取与数据特征相匹配的聚类阈值,其中,预设数据库中存储有历史聚类过程中的数据特征对应的聚类阈值;采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果。
进一步地,采用聚类阈值对待聚类数据进行数据聚类处理,得到聚类结果包括:对待聚类数据进行预处理,得到处理后的数据;计算处理后的数据中的各个数据之间的相似度;按照各个数据之间的相似度进行聚类,得到多个类;计算多个类的聚类准确率;基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果。
进一步地,基于聚类准确率对待聚类数据进行迭代聚类,得到聚类结果包括:若聚类准确率小于预设阈值,基于多个类的聚类准确率和聚类阈值进行学习,更新当前的聚类阈值;采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果。
进一步地,若聚类准确率小于预设阈值,则更新聚类阈值之后,方法还包括:将更新后的聚类阈值存储在预设数据库中。
进一步地,按照各个数据之间的相似度进行聚类,得到多个类包括:采用不同的聚类方法对各个数据之间的相似度进行聚类,得到各个聚类方法下的多个类;按照预设的融合策略,对各个聚类方法下的多个类进行融合,得到多个类。
进一步地,采用更新后的聚类阈值对待聚类数据进行数据聚类处理,直到在数据聚类处理后得到的多个类的聚类准确率大于等于预设阈值时,得到聚类结果包括:确定数据特征中的应用场景,其中,所述应用场景为以下至少之一:互联网搜索、电商购物、商业分析、动植物分类、基因分类、保险行业、电子商务;基于应用场景,对数据聚类处理后得到的聚类准确率大于等于预设阈值的多个类的进行排序;按照排序后的次序对各个类进行展示,得到聚类结果。
进一步地,计算多个类的聚类准确率包括:采用戴维森保丁指数算法计算多个类的聚类准确率。
进一步地,数据特征至少包括:数据类型、数据量、数据结构、应用场景。
进一步地,聚类阈值包括以下之一:聚类簇数、相似度阈值、聚类报警阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811103301.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置