[发明专利]一种组合文字和图片信息的网络资讯批量采集方法有效
申请号: | 201410166752.5 | 申请日: | 2014-04-23 |
公开(公告)号: | CN103927370A | 公开(公告)日: | 2014-07-16 |
发明(设计)人: | 唐宇波;夏平嵩 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 组合 文字 图片 信息 网络 资讯 批量 采集 方法 | ||
1.一种组合文字和图片信息的网络资讯批量采集方法,其特征在于,包括:
步骤一、确定需要进行资讯采集的网站,并确定该网站中需要采集的资讯列表页的具体URL,以及这些列表页的页面数量;
步骤二、根据多个列表页的URL,找出这些URL的公共部分,保存在列表配置信息中,另外,把这些列表页的序号信息保存在列表配置信息中;
步骤三、在第一次资讯采集时,系统读取列表配置信息中的URL公共部分信息,从列表页的总数量,得到全部的列表页的序号信息,从而组合成目标网站待采集的所有列表页的URL;
对于以后的资讯采集,系统读取列表配置信息中的URL公共部分信息,以及最新2页的列表页序号信息,组合成目标网站待采集的最新2页的列表页的URL;
系统根据这些URL,来抓取目标网站的这些列表页面的源代码,并通过对源代码进行解析,获取列表页中包含的详细页链接地址;
步骤四、根据待抓取链接库中保存的详细页链接地址,进行详细页内容的抓取;
依次访问待抓取链接库中保存的详细页链接地址,获取详细页的源代码;
详细页内容抓取成功之后,把此详细页链接地址保存到已抓取链接库中,用于以后进行重复性判断使用;
步骤五、对于详细页内容中图片的处理;
资讯的图片是资讯内容中的重要组成部分,在采集资讯内容时,同时获得的只是图片的链接地址,需要后续继续处理才能把图片下载下来;
当所有的详细页中的文字信息都抓取结束后,再根据所获得的图片链接地址开始进行图片的抓取,有利于提升整个处理过程的效率;
步骤六、抓取详细页内容之后,将内容数据导出到指定接口。
2.根据权利要求1所述的网络资讯批量采集方法,其特征在于,步骤一中:
可以选择多个网站进行资讯的批量采集,根据不同的时间段,对多个网站的采集时间、采集方式、采集内容进行调度,在上网波峰时间,设置为串行采集方式,即对一个网站的资讯采集完成之后,再开始下一个网站的资讯采集;在上网波谷时间,设置为并行采集方式,即同时对多个网站进行资讯采集,保证采集的高效,以及资源利用的高效。
3.根据权利要求1所述的网络资讯批量采集方法,其特征在于,步骤三中:
获取详细页链接地址的方式有2种,这两种方式保存在详细页配置信息中:
(1)标签方式:首先设定列表页源代码中包含的详细页链接地址的开始位置标志和结束位置标志,这种位置标志表现为网页中固定的编码,保存在详细页配置信息中;在列表页源代码中查找这些位置标志,从开始位置标志和结束位置标志之间,提取详细页链接地址,并保存到待抓取链接库中;
(2)特定链接方式:首先分析列表页源代码中包含的详细页链接地址,根据采集内容的需要,从中提取详细页链接地址的特征码,再通过正则表达式的构建采集条件,保存在详细页配置信息中;在列表页源代码中获取所有的详细页链接地址,然后与特征码进行匹配,如果可以匹配得上,就保存到待抓取链接库中。
4.根据权利要求3所述的网络资讯批量采集方法,其特征在于:
获取的详细页链接地址,与已抓取链接库中保存的详细页链接地址进行比对,如果不相同,就把这个获取的详细页链接地址保存到待抓取链接库中;否则,则丢弃这个获取的详细页链接地址,防止有些链接重复被抓取的现象发生;
其中,采集所有的详细页链接地址使用标签方式,采集满足内容条件的详细页链接地址使用特定链接方式。
5.根据权利要求4所述的网络资讯批量采集方法,其特征在于,异常情况处理:
(1)时间过长:因为网站是否可访问无法预计,可能访问时会出现异常,通过对抓取过程设定一个过期时间,当一个网站长时间没有响应的时候,能够主动退出,避免长时间的占有系统资源;
(2)信息遗漏:某些网站在多个IP进行了部署,针对不同的IP会有不同的返回结果,当出现抓取结果出现遗漏信息时,经过排查是因为IP地址限定导致这种问题,系统通过设置相应的代理服务器,使用其他IP的服务器进行访问,来获取完整的网页内容;
(3)频繁访问:产生异常的原因是因为访问网站过于频繁,违反了目标网站的访问规则,目标网站从而对这个访问进行限制引起的,这时通过设置抓取频率,减慢抓取速度,进行采集,对目标的网站在每访问一个页面之前等待一定的时间,规避限制,正常的进行数据采集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410166752.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冲内钩脚工装
- 下一篇:一种新型装饰板材结构
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置