[发明专利]一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质有效
申请号: | 202110522150.9 | 申请日: | 2021-05-13 |
公开(公告)号: | CN113297448B | 公开(公告)日: | 2022-10-25 |
发明(设计)人: | 王洪明;李静静;孙树计;刘书志;王飞飞;胡冉冉;刘晓雷 | 申请(专利权)人: | 中国电波传播研究所(中国电子科技集团公司第二十二研究所) |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/906 |
代理公司: | 青岛博雅知识产权代理事务所(普通合伙) 37317 | 代理人: | 封代臣 |
地址: | 266107 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网络 爬虫 电波 环境 数据 采集 方法 计算机 可读 存储 介质 | ||
本发明公开了一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质,该方法包括如下步骤:步骤1,开源数据的调研与网页特征分析:步骤2,网络爬虫设计:步骤3,自动采集系统架构与集成应用。本发明所公开的方法,可对多种电波环境关联数据源进行调研和筛选,深入分析其数据的种类、采集手段、采集时间、更新频率等信息,将与电波环境关联度高、可靠性强的数据源纳入电波环境网络爬虫数据采集的对象。
技术领域
本发明属于军事信息计算与处理技术领域,特别涉及该领域中的一种基于网络爬虫的开源电波环境数据采集方法及计算机可读存储介质。
背景技术
随着全球数据资源共享力度的不断加大,互联网已经成为获取信息的重要来源。美国NOAA网站、澳大利亚的电离层预报服务(IPS)网站、国内气象部门公共服务网站(cma、t7online)等均有海量多源异构的电波环境支撑数据可供获取,但为不同网站定制数据采集程序的人工成本很高,迫切需要设计并实现一种基于网络爬虫的开源电波环境数据采集方法,通过使用网络爬虫工具,整合多个电波环境数据源,分析每个数据源Web站点结构及网页特征信息,自定义配置相应的数据采集规则,实现海量电波环境开源数据的自动采集,为开源电波环境数据资源获取提供一个方便且成本较低的手段,满足后期开展电波环境事件检测及电波环境态势分析的数据支持需求,为大数据时代电波环境信息保障能力提升奠定基础。
目前网络数据采集主要是由综合运用垂直搜索引擎技术的网络蜘蛛或数据采集机器人等技术来完成。在国外,Madhusudan等为解决搜索引擎对深层网页缺乏索引的问题,提出了一种聚焦语义网络爬虫的方法,该方法首先获取相关网站,然后进一步通过深度搜索重新获取相关网站。Hyo-Jung等设计并实现了一种能够从深网中自动采集动态生成的网页的爬虫算法,这种方法使用脚本而不是关键字来作为链接。Kumar等提出了一种基于查询的爬虫方法,使用与用户感兴趣的主题相关的一组关键词,将关键词传递到URL对应网站的搜索查询界面,从而获取最相关的链接。国内不少学者也在进行数据采集方面的研究,电子科技大学的刘鹏飞在“京东商城舆情分析系统”中设计了一种面向多数据源,可对采集源、采集深度、采集类别进行详细配置,并按采集频率和并行多线程调度两种方式进行控制的数据采集方法。罗咪使用scrapy多线程爬虫框架实现了模拟登录、动态网页抓取和克服微博反爬虫机制等功能。
除了以上提及的国内外学者在数据采集方面的研究,在国内从事海量数据采集的企业也很多,它们大多是利用垂直搜索引擎技术来实现数据采集,还有一些企业实现了多种技术的综合运用。“火车采集器”采用了垂直搜索引擎+网络雷达+信息追踪与自动分拣+自动索引技术,将海量数据采集与后期处理进行了结合。深圳视界信息技术有限公司的“八爪鱼采集器”,能在短时间内从不同的网站或者网页获取大量的规范化数据,帮助客户实现数据自动化采集、编辑和规范化,从而削弱对人工搜索及收集数据的依赖。
在电波环境本体构建技术研究中,根据电波环境对武器装备系统作用与影响的相关原理,梳理电波环境主要事件及对武器装备影响的相关要素,基于本体工程的知识提出战场电波环境保障本体模型,利用本体建模工具Protege完成战场电波环境保障本体模型的构建,为开展基于本体知识库的电波环境数据自动采集提供了研究基础。已收集了数十个电波环境开源网站,包括美国空间天气预报中心(http://www.swpc.noaa.gov)、美国地球物理数据中心(http://spidr.ngdc.gov)、喷气动力学实验室(http://iono.jpl.nasa.gov)、空间天气和电离层闪烁服务(http://www.nwra-az.com)、天气在线(http://t7online.com)、美国怀俄明大学的气象服务网站(http://weather.uwyo.edu)等,通过开发定制数据采集程序已完成部分网站数据的下载,熟悉HTML网页布局,能够按照W3C的HTML DOM标准,将HTML文档中的所有内容用DOM树结构中的节点表示,能以CSS选择器或Xpath方式解析页面,抽取相关节点提取想要的数据信息。以上的研究成果为开展基于网络爬虫的开源电波环境数据采集方法研究奠定了技术基础。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电波传播研究所(中国电子科技集团公司第二十二研究所),未经中国电波传播研究所(中国电子科技集团公司第二十二研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110522150.9/2.html,转载请声明来源钻瓜专利网。