[发明专利]一种基于云计算的数据采集分析系统及方法在审
申请号: | 201910797160.6 | 申请日: | 2019-08-27 |
公开(公告)号: | CN110704403A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 杨勋;魏力强 | 申请(专利权)人: | 北京国联视讯信息技术股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/906;G06F16/951;G06F16/9535 |
代理公司: | 11401 北京金智普华知识产权代理有限公司 | 代理人: | 巴晓艳 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 集群系统 爬虫程序 大数据 任务调度系统 第一数据 数据清洗 数据采集分析系统 数据采集和分析 检索目标数据 数据采集规则 数据采集系统 查询匹配 调度数据 定时启动 动态开启 技术框架 任务调度 输入参数 自动匹配 持久化 数据源 云计算 研发 服务器 清洗 展示 编排 发送 关联 筛选 分类 | ||
1.一种基于云计算的数据采集分析方法,其特征在于,所述方法包括:
抓取步骤:结合数据采集系统服务器,根据任务调度编排,启动爬虫程序,根据输入参数抓取第一数据,将抓取到的第一数据发送回大数据集群系统中;
处理步骤:对抓取到的第一数据进行分类和筛选,实现数据清洗,并在数据清洗后,自动匹配大数据集群系统中的已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据;
查询步骤:从大数据集群系统中快速地检索目标数据的必要数据源,展示查询匹配结果。
2.根据权利要求1所述的数据采集分析方法,其特征在于,所述抓取步骤包括:
规则编辑步骤:根据数据采集目标制定数据采集规则;
任务调度步骤:编排数据采集任务;
数据采集步骤:根据编排的数据采集任务,基于数据采集规则启动爬虫程序,抓取到第一数据,然后发送回大数据集群系统。
3.根据权利要求2所述的数据采集分析方法,其特征在于,所述抓取步骤基于智能推荐系统算法、智能分类算法、回归算法、自然语言处理算法、聚类算法、相识度量算法。
4.根据权利要求1所述的数据采集分析方法,其特征在于,所述处理步骤包括:
数据清洗步骤:对抓取到的第一数据进行分类和筛选;
数据合并步骤:自动匹配大数据集群系统中已抓取并清洗的第二数据,通过相识度评分,关联可能相识的数据。
5.根据权利要求4所述的数据采集分析方法,其特征在于,所述数据清洗步骤包括:
智能分词子步骤:根据关键特征词汇的长度拆分内容单元,实现单字、单词分析;
敏感词过滤子步骤:针对不合规的敏感词源词意在分词前直接过滤;
智能分类子步骤:采用一对多、多对多的词意结构进行复杂词意的分词,实现词汇分类;
语义分析子步骤:挖掘关键特征词汇和行业术语。
6.根据权利要求5所述的数据采集分析方法,其特征在于,所述智能分词子步骤借助字典和词库实现拆分内容单元,实现单字、单词分析。
7.根据权利要求5所述的数据采集分析方法,其特征在于,所述语义分析子步骤采用基于语义的统计语言模型,有效挖掘出关键特征词汇。
8.根据权利要求5所述的数据采集分析方法,其特征在于,所述关键特征词汇的长度为小于等于50个长度。
9.一种基于云计算的数据采集分析系统,其特征在于,所述数据采集分析系统包括:
处理器和用于存储可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令,以执行如权利要求1至8任一项所述的基于云计算的数据采集分析方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于云计算的数据采集分析方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国联视讯信息技术股份有限公司,未经北京国联视讯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910797160.6/1.html,转载请声明来源钻瓜专利网。