[发明专利]基于互联网数据抓取系统的数据抓取方法在审
申请号: | 201710776642.4 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107704515A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 李松松 | 申请(专利权)人: | 安徽简道科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q40/04 |
代理公司: | 昆明合众智信知识产权事务所53113 | 代理人: | 张玺 |
地址: | 230088 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互联网 数据 抓取 系统 方法 | ||
技术领域
本发明属于数据抓取技术领域,更具体地说,尤其涉及一种基于互联网数据抓取系统的数据抓取方法。
背景技术
随着技术的不断进步,中国互联网已经形成规模,互联网应用走向多元化。互联网越来越深刻地改变着人们的学习、工作以及生活方式,甚至影响着整个社会进程。信息抓取是将非结构化的信息从网站中抓取出来保存到结构化的数据库中的过程。信息抓取是企业信息化的根基和第一步,只有利用先进的技术作好了信息抓取工作,才能为信息化带来最大的价值!
现缺少一种基于互联网数据抓取系统的数据抓取方法,互联网数据抓取系统在数据抓取中有很大的发展潜力,数据抓取方法比较固定,无法对抓取的数据进行去重处理,造成数据抓取量大,需要进一步优化和完善,这对数据抓取的发展具有非常重要的意义。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于互联网数据抓取系统的数据抓取方法。
为实现上述目的,本发明提供如下技术方案:一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:系统利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
优选的,所述步骤S4中,注意避免应用了防采集措施的网站,如:限定IP地址在一定时间内对页面的访问次数、用javascript加密内容页面、只允许用户登陆后才可以浏览和只允许通过本站页面连接查看的网站。
优选的,所述步骤S5中,由于网页是半结构化文档,除了数据内容之外,还包括大量格式和其它多媒体信息,抓取前务必了解网页数据的组织特点,确定目标数据项的识别规则,通过查看源文件进行分析。
优选的,所述步骤S6中匹配搜索过程中,为了尽可能的增强灵活性,采用了正则表达式。
本发明的技术效果和优点:本发明一种基于互联网数据抓取系统的数据抓取方法,首先通过资金管理平台确定可操作资金,根据博弈论的均衡策略确定买入比例,市场处于下跌行情时,对股票组合最小价值的一个保全措施安排,当价格上涨时,股票组合仍不失去盈利的机会,利用两类产品在不同市场上出现的瞬间定价的不同来迅速实现贱买贵卖的交易,并从中获得价差收益,将股票分类为价值被高估的股票和价值被低估的股票,在预定成本价位的一定波动范围内建仓,最终使综合成本等于预定成本,在账面出现盈利时,按以利博利的手段达到控制阶段性盈利,从而最终实现战略盈利。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于互联网数据抓取系统的数据抓取方法,具体包括如下步骤:
S1:提供现有关键词库内的关键词,在搜索引擎上URL采集,并提供用户自定义关键词的采集;
S2:系统利用URL校验的方式将获取到的URL进行去重;
S3:URL采集爬虫包含深度优先和广度优先算法,并可配置爬取深度和用户权限,提供对URL标签解析功能,包含标题、日期、作者、正文特定标签下的内容提取并分类,提供对搜索出结果的特定标签内关键信息进行抽取,有新闻资讯类网页的正文信息抽取功能;
S4:确定抓取目标网址,先找到含有所需数据的网址,判断数据的可靠性以及抓取的可行性和难度;
S5:分析页面内容及其组织方式,确定抓取规则;
S6:正则表达式匹配对每个层次的文本,根据定义的标识串,对网页文本进行匹配搜索以提取所需数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽简道科技有限公司,未经安徽简道科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710776642.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种照片管理方法、装置及计算机可读存储介质
- 下一篇:一种点歌的方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置