[发明专利]一种基于新闻列表实时抓取方法在审
申请号: | 201810991700.X | 申请日: | 2018-08-29 |
公开(公告)号: | CN109271576A | 公开(公告)日: | 2019-01-25 |
发明(设计)人: | 贝超 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
代理公司: | 北京中誉威圣知识产权代理有限公司 11279 | 代理人: | 蒋常雪 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于新闻列表实时抓取方法,包括以下步骤,输入新闻列表页地址;读取、访问网页数据;获取地址列表;分别在数据库和缓存中进行存储;从缓存中读取地址,通过数据库判断子地址数量;抓取网站地址中的内文本内容;将抓取的文本内容进行存储,通过在原有爬虫技术的基础上加入缓存技术,可以避免网站列表的重复抓取,也可以在较短的时间内获取最新的新闻列表数据。 | ||
搜索关键词: | 抓取 文本内容 存储 读取 缓存 数据库判断 读取地址 访问网页 缓存技术 获取地址 列表数据 爬虫技术 网站地址 页地址 子地址 网站 数据库 重复 | ||
【主权项】:
1.一种基于新闻列表实时抓取方法,其特征在于,包括以下步骤,(1)输入新闻列表页地址;(2)读取、访问网页数据;(3)获取地址列表;(4)分别在数据库和缓存中进行存储;(5)从缓存中读取地址,通过数据库判断子地址数量;(6)抓取网站地址中的内文本内容;(7)将抓取的文本内容进行存储。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810991700.X/,转载请声明来源钻瓜专利网。
- 上一篇:将“网站”附加在“网站大搜索”上
- 下一篇:一种基于网络的信息检索方法