[发明专利]一种资讯抓取方法及装置在审
申请号: | 201711406132.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108133010A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 温煦峰;翟素校;张静静;郝景坡;闵剑 | 申请(专利权)人: | 新奥(中国)燃气投资有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100033 北京市西城区锦*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种资讯抓取方法及装置,该方法可以包括:针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则;利用预设的第一链接信息获取所述目标网页;根据所述资讯列表规则,获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息;针对于每一个所述第二链接信息,执行,利用当前第二链接信息获取资讯网页;根据所述资讯标题规则,从所述资讯网页中抓取资讯标题;根据所述资讯内容规则,从所述资讯网页中抓取资讯内容。本方案能够实现定向抓取。 | ||
搜索关键词: | 资讯 抓取 目标网页 资讯内容 链接信息获取 链接信息 列表规则 网页 对象设置 预设 | ||
【主权项】:
一种资讯抓取方法,其特征在于,针对于目标网页上的待抓取对象设置资讯列表规则、资讯标题规则以及资讯内容规则;还包括:利用预设的第一链接信息获取所述目标网页;根据所述资讯列表规则,获取所述目标网页上的所述待抓取对象中包括的至少一条资讯所分别对应的第二链接信息;针对于每一个所述第二链接信息,执行,利用当前第二链接信息获取资讯网页;根据所述资讯标题规则,从所述资讯网页中抓取资讯标题;根据所述资讯内容规则,从所述资讯网页中抓取资讯内容。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新奥(中国)燃气投资有限公司,未经新奥(中国)燃气投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711406132.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息存储方法及装置
- 下一篇:一种资讯推送方法及装置