[发明专利]电子报抓取方法和装置有效
申请号: | 201510142840.6 | 申请日: | 2015-03-27 |
公开(公告)号: | CN106156058B | 公开(公告)日: | 2019-10-15 |
发明(设计)人: | 吴显丽;明笛 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 陶敏;黄健 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种电子报抓取方法和装置,电子报抓取装置在收到抓取请求后,首先根据待抓取电子报的标识获取待抓取电子报的总览页源码,对总览页源码进行分析抓取电子报的叠信息及版面列表,再对版面列表中各个版面的源码进行分析抓取电子报的版面信息,再通过对版面中的新闻稿件的源码进行分析后抓取新闻稿件的信息,最后再对电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出,该电子报抓取方法可以有效的根据电子报的特性对电子报信息进行完整的抓取,方便了用户对电子报数据的分析和再利用,提高了对电子报分析的效率。 | ||
搜索关键词: | 电子报 抓取 方法 装置 | ||
【主权项】:
1.一种电子报抓取方法,其特征在于,包括:接收抓取请求,所述抓取请求中包括待抓取电子报的标识;获取与所述电子报的标识对应电子报总览页的源码;从所述电子报总览页的源码中抓取所述电子报的叠信息及版面列表;从所述版面列表中各个版面的源码中抓取各个版面的信息,所述版面的信息包括版面的图及版面中的新闻稿件;从所述新闻稿件的源码中抓取所述新闻稿件的信息;将所述电子报的各个新闻稿件的信息、新闻稿件所属的版面信息及叠的信息进行整合并输出;所述从所述版面列表中的各个版面的源码中抓取各个版面的信息,包括:根据所述各个版面的源码中的热区源码,确定各个版面中新闻稿件的第一信息,所述第一信息包括所述各个版面中新闻稿件的第一数量;根据所述各个版面网址源码中的页面链接源码,确定各个版面中新闻稿件的第二信息,所述第二信息包括各个版面中新闻稿件的第二数量;比较所述第一数量与第二数量是否相同;若相同,则根据所述各个版面的源码中的所述热区源码或页面链接源码确定所述各个版面中的新闻稿件的网址源码。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510142840.6/,转载请声明来源钻瓜专利网。
- 上一篇:支架组合体
- 下一篇:一种传感器防碰撞设备