[发明专利]一种基于k均值聚类算法的搜索引擎聚合分析方法及系统有效
申请号: | 202110053856.5 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112749750B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 徐培培 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06K9/62;G06F16/33;G06F16/35 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 黄晓燕 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 均值 算法 搜索引擎 聚合 分析 方法 系统 | ||
1.一种基于k均值聚类算法的搜索引擎聚合分析方法,其特征在于,所述方法包括下述步骤:
批量导入数据,并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征;
利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析;
所述分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征的步骤具体包括下述步骤:
对导入的批量数据进行变量识别,判断导入的批量数据的变量的数据类型,其中,所述变量的数据类型包括单变量、双变量和多变量;
对导入的批量数据的每一种类型的变量进行分析,获取各个类型变量的数据类型以及数据分布特征;
对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断,判断各个变量的数据类型和数据分布特征是否为正常业务关系数据,所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据;
当存在非正常业务关系数据时,根据实际业务场景对非正常业务关系数据进行相应处理;
其中,所述非正常业务关系数据包括字段非数值型的变量数据和维数大于等于预设阈值的变量数据;
所述当存在非正常业务关系数据时,根据实际业务场景对非正常业务关系数据进行相应处理的步骤具体包括下述步骤:
当所述非正常业务关系数据为字段非数值型的变量数据时,将字段非数值型的变量数据转换为字段数值型的变量数据;
对转换后的变量数据进行分层处理,且分层处理后的变量数据作为k均值聚类算法的输入。
2.根据权利要求1所述的基于k均值聚类算法的搜索引擎聚合分析方法,其特征在于,所述当存在非正常业务关系数据时,根据实际业务场景对非正常业务关系数据进行相应处理的步骤还包括下述步骤:
当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时,对所述非正常业务关系数据进行违规约处理,且违规约处理后的变量数据作为k均值聚类算法的输入。
3.一种基于k均值聚类算法的搜索引擎聚合分析系统,其特征在于,所述系统包括:
数据分析模块,用于批量导入数据,并分析导入的批量数据的各个变量所对应的数据类型以及数据分布特征数据类型以及数据分布特征;
横向聚合分析模块,用于利用k均值聚类算法对分析后的所有变量数据进行横向聚合分析;
所述数据分析模块具体包括:
变量识别模块,用于对导入的批量数据进行变量识别,判断导入的批量数据的变量的数据类型,其中,所述变量的数据类型包括单变量、双变量和多变量;
变量分析模块,用于对导入的批量数据的每一种类型的变量进行分析,获取各个类型变量的数据类型以及数据分布特征;
解析判断模块,用于对获取到的各个类型的变量的数据类型以及数据分布特征进行解析判断,判断各个变量的数据类型和数据分布特征是否为正常业务关系数据,所述正常业务关系数据为符合实际业务数据且不存在明显异常和不合理的业务数据;
非正常业务关系数据处理模块,用于当存在非正常业务关系数据时,根据实际业务场景对非正常业务关系数据进行相应处理;
其中,所述非正常业务关系数据包括字段非数值型的变量数据和维数大于等于预设阈值的变量数据;
所述非正常业务关系数据处理模块具体包括:
字段数值型转换模块,用于当所述非正常业务关系数据为字段非数值型的变量数据时,将字段非数值型的变量数据转换为字段数值型的变量数据;
分层处理模块,用于对转换后的变量数据进行分层处理,且分层处理后的变量数据作为k均值聚类算法的输入。
4.根据权利要求3所述的基于k均值聚类算法的搜索引擎聚合分析系统,其特征在于,所述非正常业务关系数据处理模块还包括:
违规约处理模块,用于当所述非正常业务关系数据为维数大于等于预设阈值的变量数据时,对所述非正常业务关系数据进行违规约处理,且分层处理后的变量数据作为k均值聚类算法的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110053856.5/1.html,转载请声明来源钻瓜专利网。