[发明专利]一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质有效
申请号: | 202110522150.9 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113297448B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 王洪明;李静静;孙树计;刘书志;王飞飞;胡冉冉;刘晓雷 | 申请(专利权)人: | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/906 |
代理公司: | 青岛博雅知识产权代理事务所(普通合伙) 37317 | 代理人: | 封代臣 |
地址: | 266107 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 爬虫 电波 环境 数据 采集 方法 计算机 可读 存储 介质 | ||
1.一种基于网络爬虫的开源电波环境数据采集方法,其特征在于,包括如下步骤:
步骤1,开源数据的调研与网页特征分析:
步骤11,开展开源电波环境关联数据的调研与分析,对多种电波环境关联数据源进行调研和筛选,选出可用于电波环境态势分析以及与电波环境态势分析关联度高的数据源,分析其数据的种类、采集手段、采集时间和更新频率,借助互联网评价工具开展电波环境信息源质量分析,将与电波环境关联度高、可靠性强的数据源纳入电波环境网络爬虫数据采集的对象;
步骤12,研究开源电波环境网页的分布特征和变化规律,依次对已收集的电波环境开源网站进行分析,从待采集数据的结构组成、是否需要登录与验证码、是否采用了ajax技术进行统计分析,完成电波环境开源网站的分类和分级,制定不同等级网站的数据爬取策略;
步骤2,网络爬虫设计:
步骤21,自定义采集规则,将需要采集的电波环境数据按照在网页上布局不同分类,对单个数据、列表数据、表格数据、翻页多页数据的不同设计风格网站数据逐一配置采集规则,形成采集任务;
在步骤21中,采集单个数据的步骤为:
(a)创建一个新任务,输入网址,分别选中需要采集的字段,对于文本字段选择采集元素的文本,对于图片字段,选择采集该图片地址;
(b)编辑字段,可修改字段的名称,也可以对字段进行更多的操作,包括删除、复制和格式化;
(c)获取数据并导出,运行配置好的采集任务,采集完成后,选择合适的导出方式导出数据,支持Excel、CSV、HTML;
步骤22,特殊网站数据采集规则的设计,采用通过浏览器模式+记住Cookie或输入账号+输入密码+点击登陆的方式配置规则形成需要登录与验证码网站的采集任务,通过ajax设置并设置超时时间配置规则形成采用了ajax技术网站的采集任务;
步骤23,数据提取与入库,通过包括添加特殊字段、字段位置的调整、字段合并、字段格式化、正则表达式在内的优化配置采集规则实现数据提取,形成最终满足要求的数据,再通过数据字段映射定期导入数据库;
步骤3,自动采集系统架构与集成应用:
步骤31,分布式云构架采集系统设计,整个系统部署在云平台之上,包含主程序、监控程序、采集规则配置客户端、分布式采集集群和存储集群,主程序部署包括连接客户端、云节点、云采集数据、账号信息存储在内的服务;监控程序提供服务资源管理、节点资源管理和任务控制及监视;采集规则配置客户端通过模拟人工网页浏览操作,可视化制作采集规则流程,采集规则配置数据存储在一个配置数据库中;
步骤32,在电波环境应用系统中进行集成应用,在互联网直接部署的电波环境应用系统与电波环境网络爬虫采集系统进行无缝对接设计,设置包括分钟、小时、天、星期、月在内的采样频率;对于跨网部署的电波环境应用系统,电波环境网络爬虫采集系统支持包括Excel、SQL、TXT、MySQL在内的多种数据格式的导出,只需要定期开展数据导入或编写数据整合接口程序。
2.根据权利要求1所述基于网络爬虫的开源电波环境数据采集方法,其特征在于,在步骤21中,采集列表数据的步骤为:
(a)选中页面上的一个数据列表,这个选中的范围需要最大,包含要采集的所有字段;
(b)选中该数据列表的子元素,界面提示已选中子元素,同时发现同类元素,选择“选中全部”;
(c)确认完成了所有字段的选择后,启动采集数据,完成“循环-提取数据”设置。
3.根据权利要求1所述基于网络爬虫的开源电波环境数据采集方法,其特征在于,在步骤21中,采集表格数据的步骤为:
(a)选中页面上第一个列表的第一个单元格,再选择提示框中的扩大选区,选中至一整行,每一行的具体字段已经完成了定位和自动识别;
(b)选择“选中子元素”,界面提示发现了同类元素,再选择“选中全部”,页面中所有表格子元素都被选中了;
(c)当前规则默认采集列表中的全部字段,在字段编辑功能界面中,完成字段的修改和删除工作,启动采集数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电波传播研究所(中国电子科技集团公司第二十二研究所),未经中国电波传播研究所(中国电子科技集团公司第二十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110522150.9/1.html,转载请声明来源钻瓜专利网。