[发明专利]一种云计算平台及其调度、数据分析方法及系统在审
申请号: | 202010511914.X | 申请日: | 2020-06-08 |
公开(公告)号: | CN111708932A | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 周康;董岩;闫强;石凯;武铁军 | 申请(专利权)人: | 中联云港数据科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06K9/62;H04L29/06;H04L29/08 |
代理公司: | 北京国谦专利代理事务所(普通合伙) 11752 | 代理人: | 赵慧敏 |
地址: | 100029 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 平台 及其 调度 数据 分析 方法 系统 | ||
1.一种云计算平台及其调度、数据分析方法,其特征在于,所述云计算平台及其调度、数据分析方法包括:
步骤一,通过数据采集模块利用应用程序界面接口获取数据采集任务,并利用爬虫单元根据任务生成器生成的资源定位符采集对应的网站数据集和/或网页数据集;
步骤二,通过数据聚类模块利用数据聚类程序利用模糊C均值聚类算法将采集的网站数据集和/或网页数据集进行划分、聚类;
步骤三,通过安全检测模块利用安全检测程序对聚类后的网站数据集和/或网页数据集进行接收获取;扫描并识别获取的数据集中的敏感数据,并对数据集进行解析,提取所述数据集的源地址和业务类型标识;
所述数据中的敏感数据扫描识别方法包括:
3.1)扫描所述聚类后的网站数据集和/或网页数据集中的数据;
3.2)通过采用关键字、正则表达式、文件指纹或文件MD5识别所述数据中与预设敏感数据匹配的数据,并作为敏感数据保存;
3.3)识别所述数据中与预设敏感数据不匹配的数据,作为非敏感数据,并对非敏感数据进行销毁标签标识;
步骤四,获取与所述数据集的业务类型标识对应的TCP连接记录;
步骤五,根据所述获取到的TCP连接记录提取与所述源地址对应的TCP连接状态;
步骤六,判断所述TCP连接状态是否为正常,若是,则判定所述数据集为安全数据集;并获取所述TCP连接的源地址和业务类型标识,并将所述源地址添加到源地址白名单中,同时将该源地址的TCP连接状态设置为正常;
步骤七,通过数据传输模块利用数据传输设备将安全数据传输至云计算中心;通过云计算平台利用云计算中心控制所述云计算平台及其调度、数据分析系统各个模块的正常运行;
步骤八,通过数据调度模块利用数据调度程序接收待处理的网站数据集和/或网页数据集,基于读取命令根据第一双缓存中各缓存区的状态输出存储的数据集;
步骤九,采用sqoop程序将数据从数据库抽取到hadoop中,并利用SparkSQL读取抽取后的数据进行计算;
步骤十,对计算后的数据集进行格式化预处理,基于读取命令根据第二双缓存中各缓存区的状态输出存储的格式化预处理后的数据集;
步骤十一,对输出的格式化预处理后的数据集进行数据分发;并通过数据分析模块利用数据分析程序对调度处理后的网站数据集和/或网页数据集进行分析,并生成分析报告;
步骤十二,通过云存储模块利用解析单元根据预设解析算法对采集的网站数据集和/或网页数据集、安全数据及分析报告进行指定格式的转换,并将转换成所述指定格式的元素信息存储于云数据库服务器分布式存储节点;
步骤十三,通过显示模块利用显示器显示采集的网站数据集和/或网页数据集、安全数据及分析报告的实时数据。
2.如权利要求1所述云计算平台及其调度、数据分析方法,其特征在于,步骤二中,所述对采集的网站数据集和/或网页数据集进行划分、聚类的方法,包括:
采用模糊C均值聚类算法将采集的数据集划分为个子类,并给每一个子类定义一个聚类中心;
采用粒子群算寻找最优聚类中心。
3.如权利要求2所述云计算平台及其调度、数据分析方法,其特征在于,所述采用粒子群算寻找最优聚类中心的方法为:
设所述数据划分的类别集合为{C=c1,c2,...,cl},对应的聚类中心集合为{V=v1,v2,...,vl},则定义粒子群算法的适应度函数为:
式中,m是模糊指数,vj为类vj的聚类中心,uij为数据集中第i个数据样本在类别cj中的隶属度,n为数据集中的数据总数,l为聚类中心的个数;所述恶意数据检测部分用于判断各分类中的数据是否为恶性数据,当检测为恶性数据时即将该类中的数据删除。
4.如权利要求1所述云计算平台及其调度、数据分析方法,其特征在于,步骤四中,所述TCP连接记录为数据集业务类型标识对应的TCP连接的历史记录信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中联云港数据科技股份有限公司,未经中联云港数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010511914.X/1.html,转载请声明来源钻瓜专利网。