[发明专利]一种网络数据采集的方法及其系统在审
申请号: | 202010790334.9 | 申请日: | 2020-08-07 |
公开(公告)号: | CN111953766A | 公开(公告)日: | 2020-11-17 |
发明(设计)人: | 刘德建;柳旭辉;张延锋;郑成龙;陈宏展 | 申请(专利权)人: | 福建省天奕网络科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F16/951 |
代理公司: | 福州旭辰知识产权代理事务所(普通合伙) 35233 | 代理人: | 程勇 |
地址: | 350212 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 数据 采集 方法 及其 系统 | ||
本发明提供了一种网络数据采集的方法,所述方法为:步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库;本发明提供了采集效率。
技术领域
本发明涉及网络通讯技术领域,特别是一种网络数据采集的方法及其系统。
背景技术
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。网络数据采集主要是通过网罗互联网海量数据,借助科学建模,倾听消费者的心声,洞察市场机会,了解竞品动态,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。但是目前网络上的网站有着不同的格式,需要在各种不同的网站内容中找出共性,并且许多网站会设置多种障碍方式不方便数据采集。
发明内容
为克服上述问题,本发明的目的是提供一种网络数据采集的方法,能解决不同网站的同字段数据采集,提高了工作效率。
本发明采用以下方案实现:一种网络数据采集的方法,所述方法包括如下步骤:
步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;
步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;
步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;
步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。
进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。
进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。
进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。
进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。
进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省天奕网络科技有限公司,未经福建省天奕网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010790334.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于毫米波雷达的健康监测装置及方法
- 下一篇:一种信息推荐方法和服务设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置