[发明专利]网页链接抽取方法及系统有效
申请号: | 202010074980.5 | 申请日: | 2020-01-22 |
公开(公告)号: | CN111291288B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 沈鹏;李国辉;李凯 | 申请(专利权)人: | 奇安信科技集团股份有限公司;奇安信网神信息技术(北京)股份有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 邓应山 |
地址: | 100088 北京市西城区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 链接 抽取 方法 系统 | ||
本发明实施例提供一种网页链接抽取方法,包括加载目标站点的待访问地址,以得到目标页面;从目标页面中获取页面源码,解析所述页面源码,以获取第一链接;根据加载所述待访问地址时目标页面中的第一脚本文件发起的第一链接请求,获取第二链接;针对所述目标页面生成模拟动作指令;接收所述模拟动作指令,根据所述模拟动作指令触发目标页面中的第二脚本文件,以获取第三链接;对所述第一链接、第二链接以及第三链接去重,以得到目标链接。本发明实施例还提供一种网页链接抽取系统。本发明实施例的网页链接抽取方法能够抽取更多的链接,链接抽取召回率高。
技术领域
本发明实施例涉及网络安全技术领域,尤其涉及一种网页链接抽取方法及系统。
背景技术
随着互联网的高速发展,面向互联网的业务越来越多,保证互联网业务的安全性也越来越重要。在互联网应用中,如果页面存在漏洞,攻击者可能会通过漏洞将恶意代码注入到页面中,当客户端用户浏览该页面时,恶意代码会被浏览器自动解析执行。因此,网页漏洞扫描技术随之出现了。
网页漏洞扫描技术是通过对网页应用进行自动化的漏洞扫描,以发现网页应用相应的页面存在的风险及漏洞。其中,目前的网页漏洞扫描技术中抽取网页链接的方法是从一个或若干初始网页的url链接(Uniform/Universal Resource Locator,统一资源定位符)开始,获得初始网页的url链接;在抽取网页的过程中,不断从当前页面上抽取新的网页的url链接放入队列。
然而,网页链接抽取方法一般通过解析网页源码dom结构获取到url链接,在网页源码中无法获取到通过javascript发起的请求url链接,这些通过javascript发起的请求url链接无法被获取,导致网页链接抽取范围小、效果差。
发明内容
有鉴于此,本发明实施例提供了一种网页链接抽取方法、系统、计算机设备及计算机可读存储介质,用于解决采用现有网页链接抽取方法抽取网页链接的抽取范围小、效果差的问题。
本发明实施例是通过下述技术方案来解决上述技术问题:
一种网页链接抽取方法,包括:
加载目标站点的待访问地址,以得到目标页面;
从目标页面中获取页面源码,解析所述页面源码,以获取第一链接;
根据加载所述待访问地址时所述目标页面中的第一脚本文件发起的第一链接请求,获取第二链接;
针对所述目标页面生成模拟动作指令;
接收所述模拟动作指令,根据所述模拟动作指令触发目标页面中的第二脚本文件,以获取第三链接;
对所述第一链接、第二链接以及第三链接去重,以得到目标链接。
进一步地,所述根据加载所述待访问地址时第一脚本文件发起的第一链接请求,获取第二链接包括:
监听加载所述待访问地址时执行第一脚本文件返回的第一事件;
记录所述第一事件发起的第一链接请求;
获取所述待访问地址加载完成后根据所述第一链接请求发起的第二链接。
进一步地,所述接收所述模拟动作指令,根据所述模拟动作指令触发目标页面中的第二脚本文件,以获取第三链接还包括:
根据预设的至少一个元素标签从目标页面中获取对应的网页元素;
从所述网页元素中筛选出绑定第二脚本文件的网页元素;
通过所述绑定第二脚本文件的网页元素对应的第二事件,调用相应的模拟触发第二事件的策略;
根据所述模拟触发第二事件的策略触发所述目标页面中对应的第二脚本文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信科技集团股份有限公司;奇安信网神信息技术(北京)股份有限公司,未经奇安信科技集团股份有限公司;奇安信网神信息技术(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010074980.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性触控显示装置
- 下一篇:一种基于路侧双闪灯识别的车辆预警系统及方法