[发明专利]一种资源获取优化装置和方法在审
申请号: | 201510995449.0 | 申请日: | 2015-12-28 |
公开(公告)号: | CN105630983A | 公开(公告)日: | 2016-06-01 |
发明(设计)人: | 李武萌 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广东广和律师事务所 44298 | 代理人: | 章小燕 |
地址: | 518000 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种资源获取优化装置和方法,该资源获取优化方法包括:确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。通过在数据库中建立多个列表,在列表中记录URL去重过程中的判断目标,在多个列表中对待定URL依次判断,避免了内存中去重的处理能力的限制和远程关系型数据库处理时速度的限制,实现了资源获取时的能力提升和效率提升。 | ||
搜索关键词: | 一种 资源 获取 优化 装置 方法 | ||
【主权项】:
一种资源获取优化装置,其特征在于,包括:地址确认单元,用于确认待定URL是初始URL的域名内的URL;将所述待定URL根据参数模板进行简化得到简化URL;抓取预判单元,用于当简化URL在URL简化列表中不存在时,将简化URL记录到待抓取列表;数据写入单元,用于当所述待抓取列表中新添加的URL与已有的URL对应的页面内容不同时,将简化URL写入已抓取列表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510995449.0/,转载请声明来源钻瓜专利网。
- 上一篇:头灯外壳
- 下一篇:天然气管网压力能制冷与水合物的集成利用方法及装置