[发明专利]一种基于聚类集成学习的企业数据分析方法在审
申请号: | 202111182846.8 | 申请日: | 2021-10-11 |
公开(公告)号: | CN113918785A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 程良伦;郑达成;张伟文;陈武兴 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06V10/762 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 企业 数据 分析 方法 | ||
1.一种基于聚类集成学习的企业数据分析方法,其特征在于:包括以下步骤:
S1.获取待分析的产业的资料,并找出待分析产业中主要的多个待分析企业;
S2.爬取待分析企业的相关数据;
S3.对所爬取的数据进行预处理,并整理预处理过的数据为数据集;
S4.采用KMeans作为基聚类器,对数据集进行聚类集成学习,得到基础聚类结果;
S5.利用基础聚类结果构造联合矩阵;
S6.采用单链接层次聚类对联合矩阵进行处理,得到最终待分析企业的聚类集成结果。
2.根据权利要求1所述的基于聚类集成学习的企业数据分析方法,其特征在于:在步骤S6之后还包括步骤S7:结合待分析企业的相关数据,将聚类集成结果可视化。
3.根据权利要求2所述的基于聚类集成学习的企业数据分析方法,其特征在于:步骤S2,待分析企业的相关数据包括企业的运营领域、地理位置、注册资本。
4.根据权利要求3所述的基于聚类集成学习的企业数据分析方法,其特征在于:所述的预处理包括首先去除噪声数据、去除重复数据,之后进行特征筛选。
5.根据权利要求4所述的基于聚类集成学习的企业数据分析方法,其特征在于:步骤S3中,整理预处理过的数据为数据集包括以下具体步骤:
S301.根据待分析产业运营领域将待分析产业区分为若干个产业类别;
S302.根据所述待分析企业各个对应的产业类别,使用one-hot方法对待分析企业进行编码;
S303.将待分析企业的编码整理成数据集。
6.根据权利要求5所述的基于聚类集成学习的企业数据分析方法,其特征在于:S4中采用KMeans聚类算法作为基聚类器对数据集进行聚类集成学习,具体步骤为:
S401.从区间[2,2c]中随机选取一个值,赋值于K,c为真实类簇数目;
S402.从数据集中随机选择K个样本作为初始的K个质心向量:{μ1,μ2,…,μK};
S403.对所述的K个样本进行迭代,得到族划分C。
7.根据权利要求6所述的基于聚类集成学习的企业数据分析方法,其特征在于:S403中对所述的K个样本进行迭代,具体步骤为:
M1.将簇划分C初始化为其中t为{t∈N|1≤t≤K};
M2.对于i=1,2,…,m,计算样本xi和各个质心向量μj的距离将xi标记最小的为dij所对应的类别λi;此时更新
M3.对于j=1,2,…,K,对Cj中所有的样本点求均值,重新计算新的质心
M4.若所有的K个质心向量都没有发生变化,则输出簇划分C={C1,C2,…,CK}。
8.根据权利要求7所述的基于聚类集成学习的企业数据分析方法,其特征在于:S5步骤,具体为:
S501.用KMeans聚类算法经过N次迭代,产生N个基础分区
其中表示是第i个分区的第j个簇;
S502.根据样本数m,构造一个m*m的矩阵,即Cm×m=0;
S503.使用投票法得出最终的联合矩阵。
9.根据权利要求8所述的基于聚类集成学习的企业数据分析方法,其特征在于:S503所述的投票法公式为:
其中nij表示样本(i,j)分配到基础分区Pi中某个簇的次数,其中Pi指的是中的某个分区。
10.根据权利要求8所述的基于聚类集成学习的企业数据分析方法,其特征在于:步骤S6采用单链接层次聚类对联合矩阵进行处理的具体步骤为;
S601.根据联合矩阵,计算每一个类别的数据点与所有数据点之间的距离来确定它们之间的相似性;
S602.将距离最近的两个数据点或类别进行组合,生成聚类树;
S603.根据阈值来进行层次聚类,得到最终分区
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111182846.8/1.html,转载请声明来源钻瓜专利网。