[发明专利]一种基于云计算的数据采集分析系统及方法在审

专利信息
申请号: 201910797160.6 申请日: 2019-08-27
公开(公告)号: CN110704403A 公开(公告)日: 2020-01-17
发明(设计)人: 杨勋;魏力强 申请(专利权)人: 北京国联视讯信息技术股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/906;G06F16/951;G06F16/9535
代理公司: 11401 北京金智普华知识产权代理有限公司 代理人: 巴晓艳
地址: 100070 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抓取 集群系统 爬虫程序 大数据 任务调度系统 第一数据 数据清洗 数据采集分析系统 数据采集和分析 检索目标数据 数据采集规则 数据采集系统 查询匹配 调度数据 定时启动 动态开启 技术框架 任务调度 输入参数 自动匹配 持久化 数据源 云计算 研发 服务器 清洗 展示 编排 发送 关联 筛选 分类
【说明书】:

发明公开了一种基于云计算的数据采集分析系统及方法,属于数据采集和分析领域。该系统包括结合数据采集系统服务器,根据任务调度编排,基于数据采集规则启动爬虫程序,根据输入参数抓取第一数据,并发送回大数据集群系统中;对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的第二数据,通过相识度评分,关联可能相识的数据;从大数据集群系统中检索目标数据的必要数据源,展示查询匹配结果。本发明通过自主研发的技术框架,展示出爬虫程序抓取到的数据,方便进行清洗,并通过调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。

技术领域

本发明属于数据采集和分析领域,具体涉及一种基于云计算的数据采集分析系统及方法。

背景技术

在数据急剧爆炸的今天,信息行业面临大数据的诸多挑战,例如数据应用深度不断加强,数据分析技术更新频率加快,数据类型不断增多等。数据的收集、整理、传输、分析和发布是一个连续而复杂的过程,不同表现方式的数据在不同部门、企业甚至国家之间传递,经常会遇到传递摩擦和数据孤岛问题,数据的传输和共享效率面临前所未有的挑战,统一的数据格式和规定是解决这些问题的一个重要渠道,也是迫切的需求。

发明内容

针对现有技术开发速度问题,本发明提供了一种基于语义分析、智能分类分词的数据采集分析系统及方法,解决了数据采集语义关联的问题。

根据本发明的第一方面,提供一种基于云计算的数据采集分析方法,其特征在于,所述方法包括:

抓取步骤:结合数据采集系统服务器,根据任务调度编排,启动爬虫程序,根据输入参数抓取第一数据,将抓取到的第一数据发送回大数据集群系统中;

处理步骤:对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据;

查询步骤:从大数据集群系统中快速地检索目标数据的必要数据源,展示查询匹配结果。

进一步的,任务调度步骤:编排数据采集任务;

数据采集步骤:根据编排的数据采集任务,基于数据采集规则启动爬虫程序,抓取到第一数据,然后发送回大数据集群系统。

进一步的,所述抓取步骤基于智能推荐系统算法、智能分类算法、回归算法、自然语言处理算法、聚类算法、相识度量算法。

进一步的,所述处理步骤包括:

数据清洗步骤:对抓取到的第一数据进行分类和筛选;

数据合并步骤:自动匹配大数据集群系统中已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据。

进一步的,所述数据清洗步骤包括:

智能分词子步骤:根据关键特征词汇的长度拆分内容单元,实现单字、单词分析;

敏感词过滤子步骤:针对不合规的词源词意在分词前直接过滤;

智能分类子步骤:采用一对多、多对多的词意结构实现复杂词意的分词;

语义分析子步骤:挖掘关键特征词汇和行业术语。

进一步的,所述智能分词子步骤借助字典和词库实现拆分内容单元,实现单字、单词分析。

进一步的,所述语义分析子步骤采用基于语义的统计语言模型,能够有效挖掘出关键特征词汇。

进一步的,所述关键特征词汇的长度为小于等于50个长度。

根据本发明的第二方面,提供一种基于云计算的数据采集分析系统,所述数据采集分析系统包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国联视讯信息技术股份有限公司,未经北京国联视讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910797160.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top