[发明专利]一种用于智慧数据碰撞的机器学习方法及装置有效
申请号: | 201911210149.1 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111105041B | 公开(公告)日: | 2022-12-23 |
发明(设计)人: | 张艳清;查文宇;王纯斌;赵神州;潘小东;王伟才 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 智慧 数据 碰撞 机器 学习方法 装置 | ||
1.一种用于智慧数据碰撞的机器学习方法,其特征在于:包括以下步骤:
S1、对数据源每个表格的每个字段进行随机数据降采样后的到降维数据;
S2、对降维数据中的字段进行标记,标记每个字段分别来自哪个表格;
S3、将步骤S2处理后的字段输入K-means模型中,将降维数据中的表格输入K-means模型中;
S4、K-means模型对步骤S3中输入的数据进行迭代训练使聚类结果综合指标最优,类内间距最小,类间间距最大后停止训练,得到最优的K-means模型;
步骤S4中K-means模型的根据以下全部指标使用加权求和的综合评价指标方法进行训练:IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标;
得到最优的K-means模型后,还包括:
S5、将最优的K-means模型结合其他算法进行进一步的无监督集成学习;
S6、通过无监督集成学习获得K-means模型和其他算法的权重,得到优于K-means模型的聚类关联模型;
所述其他算法的包括PCA主成分分析算法、自编码算法中的至少一个。
2.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:步骤S1中对数据源每个表格的每个字段进行随机数据降采样前还包括对数据源的数据进行预处理。
3.根据权利要求2所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:所述对数据源的数据进行预处理的方法包括自动化缺失值处理、异常值处理、度量指标归一化处理中的至少一个。
4.根据权利要求1所述的一种用于智慧数据碰撞的机器学习方法,其特征在于:步骤S4中K-means模型中的具体衡量指标包括以下指标中的至少一个:IV指标、Gini增益指标、熵指标、信息增益指标、pearson系数指标、距离相关系数指标和高斯混合模型指标。
5.一种用于智慧数据碰撞的机器学习装置,其特征在于:包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种用于智慧数据碰撞的机器学习方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911210149.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置