[发明专利]一种网络数据采集的方法及其系统在审

专利信息
申请号: 202010790334.9 申请日: 2020-08-07
公开(公告)号: CN111953766A 公开(公告)日: 2020-11-17
发明(设计)人: 刘德建;柳旭辉;张延锋;郑成龙;陈宏展 申请(专利权)人: 福建省天奕网络科技有限公司
主分类号: H04L29/08 分类号: H04L29/08;G06F16/951
代理公司: 福州旭辰知识产权代理事务所(普通合伙) 35233 代理人: 程勇
地址: 350212 福*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 数据 采集 方法 及其 系统
【说明书】:

发明提供了一种网络数据采集的方法,所述方法为:步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库;本发明提供了采集效率。

技术领域

本发明涉及网络通讯技术领域,特别是一种网络数据采集的方法及其系统。

背景技术

网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。网络数据采集主要是通过网罗互联网海量数据,借助科学建模,倾听消费者的心声,洞察市场机会,了解竞品动态,为公司的媒介投入、渠道管理、品牌建设、产品创新等多种经营决策提供指导。但是目前网络上的网站有着不同的格式,需要在各种不同的网站内容中找出共性,并且许多网站会设置多种障碍方式不方便数据采集。

发明内容

为克服上述问题,本发明的目的是提供一种网络数据采集的方法,能解决不同网站的同字段数据采集,提高了工作效率。

本发明采用以下方案实现:一种网络数据采集的方法,所述方法包括如下步骤:

步骤S1、定义一配置文件,该配置文件内设置获取网站数据的参数,该配置文件能用于不同网站的同字段数据采集;

步骤S2、读取配置文件并采集网络数据,即根据不同网站,自定义配置浏览器UA标识,通过浏览器UA标识进行网络爬虫方式、定时多线程采集数据方式、多层级采集数据方式、保存浏览器cookie采集方式,对网站的网络数据进行采集;

步骤S3、进行转换网页特殊字符,即从网络上采集到的网络数据,进行数据格式化处理,即使用字符串替换、正则表达式替换或者匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码的多种方式进行处理;

步骤S4、保存采集结果,将数据导出到本地形成文件或者保存到数据库。

进一步的,所述获取网站数据的参数包括:当前API地址、当前API地址类型、网站名、网站ID、网站字符集、每页采集的子项数、以及当前URL设置的最大页数。

进一步的,所述定时多线程采集数据方式为:采取定时控制采集,进行单次采集的定时设置,或者预设某一天或者是每周每月的定时采集,根据需要对选择时间进行重新组合,灵活调配采集任务;对于采集的实时数据,如果数据数量众多,则应该同时开多个线程,做好线程同步,平均分配任务,将数据都下载到本地,做好数据策略,保证时效性和稳定性。

进一步的,所述多层级采集数据方式为:对于多级层级结构的数据,需要进行不限制层级采集,设置程序内存标识符,在每一层级都设置具体的标识符,即第一层级标识符设置为First,第二层级设置为Second,第三层级设置为Third,在不同层级切换时带上对应的标识符进行处理,通过程序向网络服务器发送请求获取网络数据资源时,通过设定好的标识符来确定是哪一层级的数据,将获取到的网络数据从网络流读取出来,保存在对应层级的数据列表或者数据库中。

进一步的,所述网络爬虫方式能准确批量识别各种网页元素,支持不同网页结构的复杂网站数据采集;所述保存浏览器cookie采集方式:对于需要进行登录的网站,只需配置目标网站的账号密码,即能采集到登录后的数据,并且采集Cookie,在登录网站之后,自动记住Cookie,免去重复输入密码的问题。

进一步的,所述文件支持TXT、EXCEL、CSV和HTML文件格式。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省天奕网络科技有限公司,未经福建省天奕网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010790334.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top