[发明专利]一种资讯抓取方法及装置在审
申请号: | 201711406132.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108133010A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 温煦峰;翟素校;张静静;郝景坡;闵剑 | 申请(专利权)人: | 新奥(中国)燃气投资有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100033 北京市西城区锦*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资讯 抓取 目标网页 资讯内容 链接信息获取 链接信息 列表规则 网页 对象设置 预设 | ||
本发明提供了一种资讯抓取方法及装置,该方法可以包括:针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则;利用预设的第一链接信息获取所述目标网页;根据所述资讯列表规则,获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息;针对于每一个所述第二链接信息,执行,利用当前第二链接信息获取资讯网页;根据所述资讯标题规则,从所述资讯网页中抓取资讯标题;根据所述资讯内容规则,从所述资讯网页中抓取资讯内容。本方案能够实现定向抓取。
技术领域
本发明涉及计算机技术领域,特别涉及一种资讯抓取方法及装置。
背景技术
随着网络技术的不断发展,各大网站越来越多,如中国燃气网等等。在部分场景下,可能需要抓取一些网站上发布的动态资讯。
目前,只能是把该网站上的所有信息全部抓取到,然后再从抓取到的全部信息中剔除掉不需要的信息(如广告等),以获取到所需的资讯信息。
可见,如何能够实现定向抓取成为当今亟待解决的问题。
发明内容
本发明实施例提供了一种资讯抓取方法及装置,能够实现定向抓取。
第一方面,本发明实施例提供了一种资讯抓取方法,针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则;还包括:
利用预设的第一链接信息获取所述目标网页;
根据所述资讯列表规则,获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息;
针对于每一个所述第二链接信息,执行,
利用当前第二链接信息获取资讯网页;
根据所述资讯标题规则,从所述资讯网页中抓取资讯标题;
根据所述资讯内容规则,从所述资讯网页中抓取资讯内容。
优选地,
所述资讯列表规则,包括:资讯列表Xpath(Xml Path Language,可扩展标记语言路径语言)、资讯列表CSS(Cascading Style Sheets,层叠样式表)以及资讯列表正则表达式;
在所述针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则之后,且在所述获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息之前,进一步包括:
根据所述目标网页的网页结构,为所述资讯列表Xpath、所述资讯列表CSS以及所述资讯列表正则表达式分别设置相应的优先级;
所述根据所述资讯列表规则,获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息,包括:
A1:从所述资讯列表Xpath、所述资讯列表CSS、所述资讯列表正则表达式中选择一个未被选择过且优先级相对最高的资讯列表规则,并在各个所述资讯列表规则均被选择过时,结束当前流程;
A2:根据选择的所述资讯列表规则获取获取所述待抓取对象中包括的至少一条资讯所分别对应的所述第二链接信息,并在获取到时,执行所述利用当前第二链接信息获取资讯网页;否则,执行A1。
优选地,
所述资讯标题规则,包括:资讯标题Xpath、资讯标题CSS以及资讯标题正则表达式;
在所述针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则之后,且在从所述资讯网页中抓取资讯标题之前,进一步包括:
为所述资讯标题Xpath、所述资讯标题CSS以及所述资讯标题正则表达式分别设置相应的优先级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新奥(中国)燃气投资有限公司,未经新奥(中国)燃气投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711406132.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息存储方法及装置
- 下一篇:一种资讯推送方法及装置