[发明专利]一种基于云计算的数据采集分析系统及方法在审
申请号: | 201910797160.6 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110704403A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 杨勋;魏力强 | 申请(专利权)人: | 北京国联视讯信息技术股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/906;G06F16/951;G06F16/9535 |
代理公司: | 11401 北京金智普华知识产权代理有限公司 | 代理人: | 巴晓艳 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于云计算的数据采集分析系统及方法,属于数据采集和分析领域。该系统包括结合数据采集系统服务器,根据任务调度编排,基于数据采集规则启动爬虫程序,根据输入参数抓取第一数据,并发送回大数据集群系统中;对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的第二数据,通过相识度评分,关联可能相识的数据;从大数据集群系统中检索目标数据的必要数据源,展示查询匹配结果。本发明通过自主研发的技术框架,展示出爬虫程序抓取到的数据,方便进行清洗,并通过调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。 | ||
搜索关键词: | 抓取 集群系统 爬虫程序 大数据 任务调度系统 第一数据 数据清洗 数据采集分析系统 数据采集和分析 检索目标数据 数据采集规则 数据采集系统 查询匹配 调度数据 定时启动 动态开启 技术框架 任务调度 输入参数 自动匹配 持久化 数据源 云计算 研发 服务器 清洗 展示 编排 发送 关联 筛选 分类 | ||
【主权项】:
1.一种基于云计算的数据采集分析方法,其特征在于,所述方法包括:/n抓取步骤:结合数据采集系统服务器,根据任务调度编排,启动爬虫程序,根据输入参数抓取第一数据,将抓取到的第一数据发送回大数据集群系统中;/n处理步骤:对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据;/n查询步骤:从大数据集群系统中快速地检索目标数据的必要数据源,展示查询匹配结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国联视讯信息技术股份有限公司,未经北京国联视讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910797160.6/,转载请声明来源钻瓜专利网。