[发明专利]网页数据的抓取方法、装置、存储介质及电子装置在审
申请号: | 201810574981.9 | 申请日: | 2018-06-06 |
公开(公告)号: | CN110633400A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 汤见乐 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 周婷婷;江舟 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页数据的抓取方法、装置、存储介质及电子装置。其中,该方法包括:在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,目标网站上的网页链接包括:目标网站的主页对应的网页链接,以及主页下的每一级网页对应的网页链接;在候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,目标类型用于指示预先配置的网页链接信息集合中配置了目标网页的抓取规则;按照抓取规则从目标网页中抓取网页数据。本发明解决了相关技术中抓取网页数据时抓取的效率较低的技术问题。 | ||
搜索关键词: | 抓取 网页链接 网页链接信息 候选网页 目标网页 目标网站 网页数据 目标类型 预先配置 链接 集合 存储介质 电子装置 网页类型 每一级 匹配 指向 网页 查找 配置 | ||
【主权项】:
1.一种网页数据的抓取方法,其特征在于,包括:/n在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对应的网页链接;/n在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,所述目标类型用于指示预先配置的网页链接信息集合中配置了所述目标网页的抓取规则;/n按照所述抓取规则从所述目标网页中抓取网页数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810574981.9/,转载请声明来源钻瓜专利网。