[发明专利]一种关于网络图片的多策略自适应爬取技术在审
申请号: | 201711432929.1 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108153880A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 沈家云;王松;郝圣禹 | 申请(专利权)人: | 北京非斗数据科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100029 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 网络图片 自适应 计算机技术领域 调度策略 链接 智能 | ||
本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。本发明采用的技术方法可分为四个步骤:步骤一,建立不同策略的爬虫组件;步骤二,建立爬虫组件的调度策略;步骤三,建立爬取链接排重机制;步骤四,建立智能爬取策略。
技术领域
本发明涉及计算机技术领域,具体涉及一种网络图片的多策略自适应爬取技术。
背景技术
近年来,网络图片在种类与数量呈现出爆炸式的增长。在海量的网络元素中,图片更符合人类阅读习惯和需求,图像用户群体极速扩张,数据的使用、传播与共享技术快速更新,图片分享网站获得了高速发展。网络平台在提供信息储存服务、丰富网民生活的同时,也不可避免地遇到了网络图片资源的无法准确、有效获取的难题。
当前基于垂直搜索引擎的主题爬虫主要有三种爬取策略:基于网页文字的评价方法、基于链接结构评价的方法、基于文字内容和链接结构相结合的综合策略。基于网页文字的评价方法主要是对网页内容文本,锚文本以及其上下文,URL字符串等文字内容信息进行分析,该方法仅针对网页内容文本进行爬取,无法满足对互联网图片进行爬取的需要。基于链接结构的评价方法采用的垂直搜索引擎可以利用网页之间链接的指向性预测候选链接的重要性,以指导爬虫爬行。基于文字内容和链接结构综合评价方法,采用网页内容文本、锚文本的文本内容和相邻页面的链接关系等综合评价候选链接的优先级。
本发明根据维度扩展的、标注权重的关键词标签构建了基于URL结构树的图片网络资源多策略自适应爬取技术。据此实现合理对各大主流网站图片资源爬取,该技术优化了基于垂直搜索引擎的爬行策略,分析网页信息的分布结构,基于索引网页提出了效率更高的抓取策略,同时对索引网页采取较高的爬取优先级,进行重访,保证消息的时效性。
发明内容
本发明的目的是为了解决精准有效获取图片网络资源,实现对各大主流网站图片资源的合理爬取,从而提高海量的图片结构化程度以及准确性、保证用户体验、促进交易量提升,从而推动整个行业发展。图片网络资源多策略自适应爬取技术主要针对爬取范围、爬取资源上传时间、加权多维关键词标签等建立灵活的爬取机制,根据图片关键词标签自发在网络搜索匹配度高的资源,对常用反爬虫策略可实现自动判别、破解。
为了实现上述目的,本发明采用了由四个环节组成的技术方案:针对各大主流网站或反扒取策略建立不同爬取策略的爬虫组件;针对爬虫种类、爬取要求、爬取任务等建立爬虫组件的调度策略;建立爬取链接排重机制,以解决URL库中存在重复内容问题;建立智能爬取策略,通过关键字在监测网站中进行检索,将检索到不同网站的链接地址放入智能爬取队列中,针对不同的网站类型通过调度不同的爬虫和定义爬取策略来依次爬取队列中链接的图片。
步骤一,建立不同策略的爬虫组件
步骤二,建立爬虫组件的调度策略
步骤三,建立爬取链接排重机制
步骤四,建立智能爬取策略
本发明通过建立不同策略的爬虫组件、建立爬虫组件的调度策略、建立爬取链接排重机制和建立智能爬取策略四个步骤,实现对各大主流网站图片网络资源的自适应多策略爬取,为行业内利用网络图片资源检测图片盗版、图片侵权等提供了有力的技术支撑。
本发明优势在于:
1.本发明优化了基于垂直搜索引擎的爬行策略,分析网页信息的分布结构,基于索引网页提出效率更高的抓取策略。
2.本发明对索引网页采取较高的爬取优先级,进行重访,解决了其他爬取方式不能保证消息时效性的问题。
3.本发明设计的自适应多策略爬取技术,可根据图片关键词标签自发在网络搜索匹配度高的资源,对常用反爬虫策略可实现自动判别、破解。
附图说明
图1是本发明的整体技术路线示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京非斗数据科技发展有限公司,未经北京非斗数据科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711432929.1/2.html,转载请声明来源钻瓜专利网。