[发明专利]一种hadoop采集系统的运行方法在审
申请号: | 202011313731.3 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112380221A | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 程永新;孙玉颖;张玉朋 | 申请(专利权)人: | 上海新炬网络信息技术股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/28;G06F16/182 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 袁亚军 |
地址: | 201707 上海市青浦区外青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 采集 系统 运行 方法 | ||
1.一种hadoop采集系统的运行方法,其特征在于,包括如下步骤:
S1)在数据存储层采用hadoop和关系型数据库的混搭架构,存储数据应用层和数据服务层产生的数据;
S2)在数据获取层通过基于hadoop的ETL加工过程,对数据应用层和数据服务层产生的数据进行处理,并在数据存储层形成企业数据仓库和数据集市。
2.如权利要求1所述的hadoop采集系统的运行方法,其特征在于,所述步骤S1通过Sqoop把关系型数据库的数据导入到Hadoop系统中或把数据从Hadoop系统里抽取并导出到关系型数据库里,并利用MapReduce进行数据传输。
3.如权利要求1所述的hadoop采集系统的运行方法,其特征在于,所述步骤S1中应用层和数据服务层产生的数据为非结构化数据,包括过程数据和业务数据。
4.如权利要求3所述的hadoop采集系统的运行方法,其特征在于,所述过程数据和业务数据由日志收集工具Flume进行处理,所述Flume由Master、Collector和Agent三部分构成;Master是集群的控制器,负责通信及配置管理;Collector用于对数据进行聚合,并会产生一个更大的数据流,然后加载到HDFS上;Agent负责采集数据并将产生的数据传输到Collector。
5.如权利要求1所述的hadoop采集系统的运行方法,其特征在于,所述步骤S2中的数据处理包括数据校验、数据清洗、数据关联、数据汇总和数据聚合处理。
6.如权利要求1所述的hadoop采集系统的运行方法,其特征在于,所述步骤S2中的数据处理包括采集搜索行为的响应时间及结果,得到需要采集索引优化词集合。
7.如权利要求1所述的hadoop采集系统的运行方法,其特征在于,所述步骤S2中的数据处理包括数据评估分析,具体过程如下:
S21、在Datanode服务器运行监视工具nmon,采用监视工具nmon监视hadoop集群系统的性能指标,并从功能性、高效性、可靠性和稳定性四个维度筛选出各评价指标;
S22、从hadoop集群系统及监视工具nmon中获得相关指标数据Y=(yij)m*n,i=1,2,…,m,j=1,2,…,n,yij表示第i个待评价对象对应于第j个评价指标的原始数据值;
S23、对各评价指标的原始数据进行标准化处理,得到处理后的数据X=(xij)m*n,xij表示第i个待评价对象对应于第j个评价指标经过标准化后的数据值;
S24、选取s种评价方法分别按照已选择的评价指标对用电信息采集系统的性能进行评价,计算并得到基于各评价方法的指标权重wkj和评价结论值fki,k=1,2,…,s,i=1,2,…,m,j=1,2,…,n;
S25、根据所述评价结论值fki,计算各单一评价方法的变异系数,并进行归一化处理,得到各评价方法的事前权重λk,k=1,2,…,s;
S26、基于整体方差最大方法,运用合作博弈的分析方法,计算各单一评价方法的特征函数,即计算多种单一评价方法组成的联盟S进行组合评价时的方差;
S27、基于S25求出的各评价方法的事前权重,计算各单一评价方法的变权Shapley值,对其进行归一化处理,得到各评价方法的权重系数μk,k=1,2,…,s;
S28、根据得到的各评价方法的权重系数,计算各评价指标的最终权重系数及组合评价值,作为hadooop集群运行性能的综合评价值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011313731.3/1.html,转载请声明来源钻瓜专利网。