[发明专利]网络资源获取方法及装置有效
申请号: | 202110714037.0 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113343152B | 公开(公告)日: | 2023-08-15 |
发明(设计)人: | 何少华 | 申请(专利权)人: | 咪咕数字传媒有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 赵娅 |
地址: | 310018 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络资源 获取 方法 装置 | ||
本发明公开了一种网络资源获取方法及装置,方法包括:获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息;对起始页面源码信息进行解析处理,提取二级页面地址集合;启动代理服务,创建浏览器代理依次请求二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;对信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历二级页面地址集合中全部的二级页面地址;根据地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。能够批量下载外部动态的目标网络资源,无需如现有下载工具需满足各种限制,更灵活。
技术领域
本发明涉及网络资源获取领域,具体涉及一种网络资源获取方法及装置。
背景技术
现有技术在获取网络资源时,可以通过如下几种方案:
一、例如采用迅雷等面向普通用户的下载工具。在下载文件时,由用户输入要下载网络资源如文件的准确网络地址进行提交,以完成下载。如果要完成多个文件的批量下载,可以采用如下载地址通配符的方式,批量生成下载链接,添加批量下载任务完成文件批量下载;
二、请求网站源码,设定特定的规则对网页元素进行分析筛选,从中获取所需要的页面元素内容,以及页面元素中包含的链接中的网络资源文件。这种方式可以获取到网页上的显示内容以及页面携带的各种类型的网络资源。
但现有技术存在如下缺陷:例如迅雷等面向普通用户的下载工具,大多只能用户手动下载单个网络资源,即使迅雷提供了批量任务下载功能,扩展性也有限,要批量下载网络资源时,这些网络资源的网络地址需要满足比较统一的字母表规律或者数字递增变化规律,如图1所示,若下载a.com下某100个网络资源,这些网络资源的网页路径统一,且网络资源自身的名称需符合规则,如数字递增规则,1.mp3,2.mp3,…,100.mp3,基于以上条件,才可以采用通配符方式匹配,如图1中通过URL过滤,设置网址为http://a.com/(*).mp3。对于不符合上述条件的多个网络资源,无法采用以上方法实现批量下载。对于一些网站对网络资源的名称进行处理,如编码处理等,也无法实现批量下载,只能采用手动添加下载任务一一下载的方式完成下载。请求网站源码时,需要对网页源码进行请求并分析页面元素来下载网页中展示的网络资源,这就限定了获取到的网站源码中必须包含展示的网络资源。但往往网站中还会包含动态的外部网络资源。动态外部资源是指用户可以在浏览器页面看到网络资源,但是不能直接下载网络资源,网页源码中不包含这类网络资源的链接地址。如用户可以在网站正常播放或者收听一段音频或者视频,但网站未提供对应网络资源的下载。对网站的页面源码中的元素进行分析,也没有搜索到相关的地址信息。对于这种类型的网络资源,获取网络资源的下载地址需要用户具备一定的专业技能基础,使用浏览器的开发者控制台工具获取网络资源地址,对用户的技术门槛要求较高。且由于网络资源的地址在对应的网络资源加载后才能由用户使用浏览器的开发者控制台工具一条一条的手动操作获取,其效率低下,无法及时满足用户需求。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的网络资源获取方法及装置。
根据本发明的一个方面,提供了一种网络资源获取方法,其包括:
获取用户输入的起始页面地址,对起始页面进行页面请求,得到对应的起始页面源码信息;
对起始页面源码信息进行解析处理,提取二级页面地址集合;二级页面地址集合包含至少一个二级页面地址;
启动代理服务,创建浏览器代理依次请求二级页面地址集合中的二级页面地址,加载对应的二级页面;利用代理服务的har参数获取页面请求中的信息实体;信息实体包含至少一个网络资源的下载地址;对信息实体进行筛选处理,确实目标网络资源的下载地址,保存至地址队列中;重复上述操作,直至遍历二级页面地址集合中全部的二级页面地址;
根据地址队列包含的目标网络资源的下载地址,下载对应的目标网络资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕数字传媒有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕数字传媒有限公司;咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110714037.0/2.html,转载请声明来源钻瓜专利网。