[发明专利]基于互联网数据抓取系统的数据抓取方法在审

申请号：	201710776642.4	申请日：	2017-09-01
公开（公告）号：	CN107704515A	公开（公告）日：	2018-02-16
发明（设计）人：	李松松	申请（专利权）人：	安徽简道科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06Q40/04
代理公司：	昆明合众智信知识产权事务所53113	代理人：	张玺
地址：	230088 安徽省合肥市***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于互联网数据抓取系统的数据抓取方法，S1提供现有关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；S2系统利用URL校验的方式将获取到的URL进行去重；S3URL采集爬虫包含深度优先和广度优先算法；S4确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；S5分析页面内容及其组织方式，确定抓取规则；S6正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。对抓取到的数据进行去重处理，改变传统的数据抓取量大问题。
搜索关键词：	基于互联网数据抓取系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于互联网数据抓取系统的数据抓取方法，其特征在于：具体包括如下步骤：S1：提供现有关键词库内的关键词，在搜索引擎上URL采集，并提供用户自定义关键词的采集；S2：系统利用URL校验的方式将获取到的URL进行去重；S3：URL采集爬虫包含深度优先和广度优先算法，并可配置爬取深度和用户权限，提供对URL标签解析功能，包含标题、日期、作者、正文特定标签下的内容提取并分类，提供对搜索出结果的特定标签内关键信息进行抽取，有新闻资讯类网页的正文信息抽取功能；S4：确定抓取目标网址，先找到含有所需数据的网址，判断数据的可靠性以及抓取的可行性和难度；S5：分析页面内容及其组织方式，确定抓取规则；S6：正则表达式匹配对每个层次的文本，根据定义的标识串，对网页文本进行匹配搜索以提取所需数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于安徽简道科技有限公司，未经安徽简道科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710776642.4/，转载请声明来源钻瓜专利网。

上一篇：一种照片管理方法、装置及计算机可读存储介质
下一篇：一种点歌的方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于互联网数据抓取系统的数据抓取方法在审

专利文献下载