[发明专利]网页数据的抓取方法、装置、存储介质及电子装置在审
申请号: | 201810574981.9 | 申请日: | 2018-06-06 |
公开(公告)号: | CN110633400A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 汤见乐 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 周婷婷;江舟 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 网页链接 网页链接信息 候选网页 目标网页 目标网站 网页数据 目标类型 预先配置 链接 集合 存储介质 电子装置 网页类型 每一级 匹配 指向 网页 查找 配置 | ||
本发明公开了一种网页数据的抓取方法、装置、存储介质及电子装置。其中,该方法包括:在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,目标网站上的网页链接包括:目标网站的主页对应的网页链接,以及主页下的每一级网页对应的网页链接;在候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,目标类型用于指示预先配置的网页链接信息集合中配置了目标网页的抓取规则;按照抓取规则从目标网页中抓取网页数据。本发明解决了相关技术中抓取网页数据时抓取的效率较低的技术问题。
技术领域
本发明涉及计算机领域,具体而言,涉及一种网页数据的抓取方法、装置、存储介质及电子装置。
背景技术
为了能够更加快速全面地了解行业的发展,有时需要抓取一些网站的内容,当前的抓取方式就是从一个链接开始不断的扩展新链接然后抓取,再扩展新链,周而复始,但这种方式存在很多问题,比如,抓取地比较盲目,可能抓到很多没有用的内容,站点资源可能抓取的不完整,很多链接没有抓取到,抓取的不完整,也不好判断是否抓取的完整。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种网页数据的抓取方法、装置、存储介质及电子装置,以至少解决相关技术中抓取网页数据时抓取的效率较低的技术问题。
根据本发明实施例的一个方面,提供了一种网页数据的抓取方法,包括:在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对应的网页链接;在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,所述目标类型用于指示预先配置的网页链接信息集合中配置了所述目标网页的抓取规则;按照所述抓取规则从所述目标网页中抓取网页数据。
根据本发明实施例的另一方面,还提供了一种网页数据的抓取装置,包括:获取模块,用于在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,所述目标网站上的网页链接包括:所述目标网站的主页对应的网页链接,以及所述主页下的每一级网页对应的网页链接;查找模块,用于在所述候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,所述目标类型用于指示预先配置的网页链接信息集合中配置了所述目标网页的抓取规则;抓取模块,用于按照所述抓取规则从所述目标网页中抓取网页数据。
根据本发明实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项中所述的方法。
根据本发明实施例的另一方面,还提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。
在本发明实施例中,采用在目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,其中,目标网站上的网页链接包括:目标网站的主页对应的网页链接,以及主页下的每一级网页对应的网页链接;在候选网页链接所指向的候选网页中查找网页类型为目标类型的目标网页,其中,目标类型用于指示预先配置的网页链接信息集合中配置了目标网页的抓取规则;按照抓取规则从目标网页中抓取网页数据的方式,预先配置了网页链接信息集合,从目标网站上的网页链接中获取与预先配置的网页链接信息集合中的网页链接信息匹配的候选网页链接,再在候选网页链接中查找配置了抓取规则的目标网页,从目标网页中抓取网页数据,能够从目标网站的大量网页中筛选出目标网页来抓取网页数据,从而避免了盲目抓取网页数据,提高了抓取到的网页数据的有效性,从而实现了提高抓取网页数据时抓取的效率的技术效果,进而解决了相关技术中抓取网页数据时抓取的效率较低的技术问题。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810574981.9/2.html,转载请声明来源钻瓜专利网。