[发明专利]一种基于云计算的数据采集分析系统及方法在审

专利信息
申请号: 201910797160.6 申请日: 2019-08-27
公开(公告)号: CN110704403A 公开(公告)日: 2020-01-17
发明(设计)人: 杨勋;魏力强 申请(专利权)人: 北京国联视讯信息技术股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/906;G06F16/951;G06F16/9535
代理公司: 11401 北京金智普华知识产权代理有限公司 代理人: 巴晓艳
地址: 100070 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于云计算的数据采集分析系统及方法,属于数据采集和分析领域。该系统包括结合数据采集系统服务器,根据任务调度编排,基于数据采集规则启动爬虫程序,根据输入参数抓取第一数据,并发送回大数据集群系统中;对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的第二数据,通过相识度评分,关联可能相识的数据;从大数据集群系统中检索目标数据的必要数据源,展示查询匹配结果。本发明通过自主研发的技术框架,展示出爬虫程序抓取到的数据,方便进行清洗,并通过调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。
搜索关键词: 抓取 集群系统 爬虫程序 大数据 任务调度系统 第一数据 数据清洗 数据采集分析系统 数据采集和分析 检索目标数据 数据采集规则 数据采集系统 查询匹配 调度数据 定时启动 动态开启 技术框架 任务调度 输入参数 自动匹配 持久化 数据源 云计算 研发 服务器 清洗 展示 编排 发送 关联 筛选 分类
【主权项】:
1.一种基于云计算的数据采集分析方法,其特征在于,所述方法包括:/n抓取步骤:结合数据采集系统服务器,根据任务调度编排,启动爬虫程序,根据输入参数抓取第一数据,将抓取到的第一数据发送回大数据集群系统中;/n处理步骤:对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据;/n查询步骤:从大数据集群系统中快速地检索目标数据的必要数据源,展示查询匹配结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国联视讯信息技术股份有限公司,未经北京国联视讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910797160.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top