[发明专利]一种基于新闻列表实时抓取方法在审
申请号: | 201810991700.X | 申请日: | 2018-08-29 |
公开(公告)号: | CN109271576A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 贝超 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 蒋常雪 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 文本内容 存储 读取 缓存 数据库判断 读取地址 访问网页 缓存技术 获取地址 列表数据 爬虫技术 网站地址 页地址 子地址 网站 数据库 重复 | ||
一种基于新闻列表实时抓取方法,包括以下步骤,输入新闻列表页地址;读取、访问网页数据;获取地址列表;分别在数据库和缓存中进行存储;从缓存中读取地址,通过数据库判断子地址数量;抓取网站地址中的内文本内容;将抓取的文本内容进行存储,通过在原有爬虫技术的基础上加入缓存技术,可以避免网站列表的重复抓取,也可以在较短的时间内获取最新的新闻列表数据。
技术领域
本发明涉及一种基于新闻列表实时抓取方法。
背景技术
网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息。
目前,传统意义上的爬虫无法保证数据的实时抓取,在抓取时,会产生重复抓取,延长搜索时间,降低了数据检索的效率。
发明内容
针对以上不足,本发明所要解决的技术问题是提供一种基于新闻列表的实时抓取方法,用于提高网页的检索效率。
为解决以上技术问题,本发明采用的技术方案是,
一种基于新闻列表实时抓取方法,包括以下步骤,
(1)输入新闻列表页地址;
(2)读取、访问网页数据;
(3)获取地址列表;
(4)分别在数据库和缓存中进行存储;
(5)从缓存中读取地址,通过数据库判断子地址数量;
(6)抓取网站地址中的内文本内容;
(7)将抓取的文本内容进行存储。
在采用以上技术方案的同时,本发明还进一步采用或者组合采用了以下技术方案。
步骤(6)中对网站地址抓取完成后,将抓取的网站地址标记地址状态为已抓取,返回步骤(4)。
当步骤(5)中输出的地址数量为0时,返回步骤(2);当步骤(5)中输出的地址数量不为0时,进行步骤(6)。
该抓取方法还包括数据更新方法和数据查询方法。
数据查询方法包括以下步骤,
数据查询方法包括以下步骤,
1)从缓存中取数据;
2)请求路由到对应的内存队列,并交给队列进行处理;
3)判断能否从缓存中取到数据;
4)若不能取到数据,则从数据库中查询;
5)判断数据库中是否存在该数据;
6)若存在数据,则创建强制刷新缓存请求,并加入列队中;
7)内存列队对数据进行处理;
8)若不存在数据,则将该数据挂起,不做任何处理,处于一个等待的状态;
当步骤3)中能取到对应数据时,则直接将数据发送至内存列队对数据进行处理。
数据更新方法包括以下步骤,
1)将缓存中的数据删除;
2)更新数据库中的数据。
本发明的有益效果是,通过在原有爬虫技术的基础上加入缓存技术,可以避免网站列表的重复抓取,也可以在较短的时间内获取最新的新闻列表数据。
附图说明
图1是本发明的流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810991700.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:将“网站”附加在“网站大搜索”上
- 下一篇:一种基于网络的信息检索方法