[发明专利]一种基于云计算的数据采集分析系统及方法在审

专利信息
申请号: 201910797160.6 申请日: 2019-08-27
公开(公告)号: CN110704403A 公开(公告)日: 2020-01-17
发明(设计)人: 杨勋;魏力强 申请(专利权)人: 北京国联视讯信息技术股份有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/906;G06F16/951;G06F16/9535
代理公司: 11401 北京金智普华知识产权代理有限公司 代理人: 巴晓艳
地址: 100070 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 抓取 集群系统 爬虫程序 大数据 任务调度系统 第一数据 数据清洗 数据采集分析系统 数据采集和分析 检索目标数据 数据采集规则 数据采集系统 查询匹配 调度数据 定时启动 动态开启 技术框架 任务调度 输入参数 自动匹配 持久化 数据源 云计算 研发 服务器 清洗 展示 编排 发送 关联 筛选 分类
【权利要求书】:

1.一种基于云计算的数据采集分析方法,其特征在于,所述方法包括:

抓取步骤:结合数据采集系统服务器,根据任务调度编排,启动爬虫程序,根据输入参数抓取第一数据,将抓取到的第一数据发送回大数据集群系统中;

处理步骤:对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据;

查询步骤:从大数据集群系统中快速地检索目标数据的必要数据源,展示查询匹配结果。

2.根据权利要求1所述的数据采集分析方法,其特征在于,所述抓取步骤包括:

规则编辑步骤:根据数据采集目标制定数据采集规则;

任务调度步骤:编排数据采集任务;

数据采集步骤:根据编排的数据采集任务,基于数据采集规则启动爬虫程序,抓取到第一数据,然后发送回大数据集群系统。

3.根据权利要求2所述的数据采集分析方法,其特征在于,所述抓取步骤基于智能推荐系统算法、智能分类算法、回归算法、自然语言处理算法、聚类算法、相识度量算法。

4.根据权利要求1所述的数据采集分析方法,其特征在于,所述处理步骤包括:

数据清洗步骤:对抓取到的第一数据进行分类和筛选;

数据合并步骤:自动匹配大数据集群系统中已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据。

5.根据权利要求4所述的数据采集分析方法,其特征在于,所述数据清洗步骤包括:

智能分词子步骤:根据关键特征词汇的长度拆分内容单元,实现单字、单词分析;

敏感词过滤子步骤:针对不合规的敏感词源词意在分词前直接过滤;

智能分类子步骤:采用一对多、多对多的词意结构进行复杂词意的分词,实现词汇分类;

语义分析子步骤:挖掘关键特征词汇和行业术语。

6.根据权利要求5所述的数据采集分析方法,其特征在于,所述智能分词子步骤借助字典和词库实现拆分内容单元,实现单字、单词分析。

7.根据权利要求5所述的数据采集分析方法,其特征在于,所述语义分析子步骤采用基于语义的统计语言模型,有效挖掘出关键特征词汇。

8.根据权利要求5所述的数据采集分析方法,其特征在于,所述关键特征词汇的长度为小于等于50个长度。

9.一种基于云计算的数据采集分析系统,其特征在于,所述数据采集分析系统包括:

处理器和用于存储可执行指令的存储器;

其中,所述处理器被配置为执行所述可执行指令,以执行如权利要求1至8任一项所述的基于云计算的数据采集分析方法。

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于云计算的数据采集分析方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国联视讯信息技术股份有限公司,未经北京国联视讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910797160.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top