[发明专利]一种基于新闻列表实时抓取方法在审
申请号: | 201810991700.X | 申请日: | 2018-08-29 |
公开(公告)号: | CN109271576A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 贝超 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 蒋常雪 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 文本内容 存储 读取 缓存 数据库判断 读取地址 访问网页 缓存技术 获取地址 列表数据 爬虫技术 网站地址 页地址 子地址 网站 数据库 重复 | ||
1.一种基于新闻列表实时抓取方法,其特征在于,包括以下步骤,
(1)输入新闻列表页地址;
(2)读取、访问网页数据;
(3)获取地址列表;
(4)分别在数据库和缓存中进行存储;
(5)从缓存中读取地址,通过数据库判断子地址数量;
(6)抓取网站地址中的内文本内容;
(7)将抓取的文本内容进行存储。
2.根据权利要求1所述的一种基于新闻列表实时抓取方法,其特征在于,步骤(6)中对网站地址抓取完成后,将抓取的网站地址标记地址状态为已抓取,返回步骤(4)。
3.根据权利要求1所述的一种基于新闻列表实时抓取方法,其特征在于,当步骤(5)中输出的地址数量为0时,返回步骤(2);当步骤(5)中输出的地址数量不为0时,进行步骤(6)。
4.根据权利要求1所述的一种基于新闻列表实时抓取方法,其特征在于,该抓取方法还包括数据更新方法和数据查询方法。
5.根据权利要求4所述的一种基于新闻列表实时抓取方法,其特征在于,数据查询方法包括以下步骤,
1)从缓存中取数据;
2)请求路由到对应的内存队列,并交给队列进行处理;
3)判断能否从缓存中取到数据;
4)若不能取到数据,则从数据库中查询;
5)判断数据库中是否存在该数据;
6)若存在数据,则创建强制刷新缓存请求,并加入列队中;
7)内存列队对数据进行处理;
8)若不存在数据,则将该数据挂起,不做任何处理,处于一个等待的状态。
6.根据权利要求5所述的一种基于新闻列表实时抓取方法,其特征在于,当步骤3)中能取到对应数据时,则直接将数据发送至内存列队对数据进行处理。
7.根据权利要求4所述的一种基于新闻列表实时抓取方法,其特征在于,数据更新方法包括以下步骤,
1)将缓存中的数据删除;
2)更新数据库中的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810991700.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:将“网站”附加在“网站大搜索”上
- 下一篇:一种基于网络的信息检索方法