[发明专利]基于数据聚类的业务指标数据分类方法及装置在审
申请号: | 201910570514.3 | 申请日: | 2019-06-27 |
公开(公告)号: | CN112148942A | 公开(公告)日: | 2020-12-29 |
发明(设计)人: | 吴曙楠;王方舟 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06Q10/06 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 李欣 |
地址: | 100089 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 业务 指标 分类 方法 装置 | ||
本公开公开了一种基于数据聚类的业务指标数据分类方法及装置,解决了当初始输入的业务指标数据本身的组间距离过大或者过小时,导致业务指标数据分类准确性低的问题,该方法包括:采用预设的凝聚层次聚类算法,针对业务指标数据集生成相应的初始聚类集合,所述初始聚类集合中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离,基于预设的邻近距离阈值,将筛选出的邻近距离未超过邻近距离阈值的待合并对象,作为最终的聚类结果输出。本公开采用邻近距离阈值作为约束聚类过程结束的条件,及时剔除相似度低的待合并对象,减少聚类合并的时间,降低业务分析的计算数量级,提高分类准确性。
技术领域
本公开涉及计算机技术领域,尤其涉及一种基于数据聚类的业务指标数据分类方法及装置。
背景技术
随着科学技术的发展,用户通过智能终端使用各类应用业务的过程中,会形成海量的业务指标数据,通过对获取的所述海量的业务指标数据进行分析,可以描述出用户的业务使用状态,根据用户的业务使用状态进行软件更新,可以提供给用户更好的用户体验。
相关技术中,通常采用凝聚层次聚类方式对业务指标数据集进行归类分析,生成一个N×4的聚类矩阵,其中,所述聚类矩阵表征该业务指标数据集最终确定的聚类个数。
然而,目前采用凝聚层次聚类方式进行业务指标数据集的聚类也存在其应用的局限性。
具体的,采用凝聚层次聚类方式对业务指标数据集进行归类分析时,输入的各个业务指标数据之间的组间距离,会影响到最终输出的聚类个数,进而降低指标分类准确性,以及降低业务的可解释性。
例如,假设输入的各个业务指标数据之间的组间距离足够大,那么,经过凝聚层次聚类后,得到的最终的聚类个数与输入时的设定类别个数一致,这样,没有达到对各个业务指标数据进行归类的目的,也无法减轻设备分析聚类后的业务指标数据簇时的负担,降低指标分类准确性。
又例如,假设输入的各个业务指标数据之间的组间距离足够小,那么,经过凝聚层次聚类方式后,得到的最终聚类个数为一类,这样,忽视了各个业务指标数据之间的微小差异性,对指标分类准确性的影响,同时,针对业务指标数据确定的最终聚类个数过少,也降低了业务的可解释性。
显然,上述两种结果均不符合业务分析需求,通常发生这种情况都需要算法工程师进行人工的干预,但是如果针对每一个场景下输出的每一个矩阵,都进行人工参数的选择,将会加大指标聚类的成本,加大人工成本,以及降低工作效率。
发明内容
本公开提供一种基于数据聚类的业务指标数据分类方法及装置,以至少解决相关技术中的业务指标数据分类准确性低问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种方法,包括:
根据本公开实施例的第一方面,提供一种基于数据聚类的业务指标数据分类方法,包括:
获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合;所述初始聚类矩阵中至少包含每一轮聚类过程中针对的待合并对象,以及各个待合并对象之间的邻近距离;
基于预设的邻近距离阈值,筛选出在聚类过程中,邻近距离未超过所述邻近距离阈值的待合并对象;
将筛选出的各个待合并对象作为最终的聚类结果输出,其中,一个待合并对象对应一种聚类。
可选的,获取业务指标数据集,基于预设的凝聚层次聚类算法,生成所述业务指标数据集的初始聚类集合之后,进一步包括:
基于所述初始聚类集合,确定所述各个待合并对象之间的邻近距离在聚类过程中的变化趋势特征;
基于所述变化趋势特征,确定所述邻近距离阈值。
可选的,基于所述变化趋势特征,确定所述邻近距离阈值,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910570514.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置