[发明专利]一种同源网站扩展的方法、装置及介质在审
申请号: | 202210329980.4 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114707096A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 黄旗亮;宓晨希 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/953 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张倩 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 同源 网站 扩展 方法 装置 介质 | ||
本申请涉及互联网领域,公开了一种同源网站扩展的方法、装置及介质,包括:获取待扩展网站URL和任务相关参数,对待扩展网站URL发起HTTP或HTTPS请求得到响应信息,从响应信息中提取网站特征得到网站特征集合,并从网站特征集合中选取目标网站特征,并转换为网络空间搜索引擎可识别的查询字符串,网络空间搜索引擎根据任务相关参数验证目标网站特征的标志性以确定待扩展网站对应的同源网站。由此,基于网络空间搜索引擎实现了自动提取待扩展网站的网站特征,并自动将网站特征转换为网络空间搜索引擎可识别的查询语言,以及自动对网站特征进行验证以确定待扩展网站对应的同源网站,避免了人工提取、转换和验证网站特征的低效率。
技术领域
本申请涉及互联网领域,特别是涉及一种同源网站扩展的方法、装置及介质。
背景技术
网络空间搜索引擎是收集网络资产,提供资产信息,评估漏洞影响和安全管理等功能为一体的网络空间资产安全管理系统。在同源网站扩展业务的场景中,需要借助网络空间搜索引擎进行扩展,其中,同源网站扩展指的是在互联网中找到与待扩展网站相同架构和相同模板的其他网站。
在进行同源网站扩展时,首先需要借助浏览器访问待扩展网站以获取访问过程中产生的响应信息,然后人工根据以往经验对获取的响应信息进行网站特征提取,其中,访问一个网站时,一次完整的HTTP或HTTPS请求包含请求头、响应头、请求正文和响应正文,网站特征是指从响应头和响应正文中提取出区别于其他网站的标志性特征。每提取一个网站特征需要人工手动将其转化为网络空间搜索引擎能够识别的特定查询语法,并由网络空间搜索引擎对该网站特征进行查询,得到查询结果后,人工对查询结果进行评估和验证,在整个查询过程中,若网站特征提取不合适,查询结果会出现误报的情况,若网站特征提取数量不合适,查询结果则会出现漏报的情况,误报和漏报对应提取的网站特征均不具备标志性,需要重复上述查询步骤直至获取到具备标志性的网站特征。
可见,目前进行同源网站时,基于人工以往的经验进行网站特征提取的效率低,此外,人工对网站特征进行网络空间搜索引擎查询语言的转换,以及人工对查询结果进行反复验证,均会降低同源网站扩展的效率。
由此可见,如何提高同源网站扩展的效率,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种同源网站扩展的方法、装置及介质,基于网络空间搜索引擎实现自动提取待扩展网站对应的网站特征,自动转换网站特征为网络空间搜索引擎可识别的查询字符串,并实现自动验证网站特征的标志性以确定待扩展网站对应的同源网站,避免人工提取、转换和验证网站特征的低效率,提高同源网站的扩展效率。
为解决上述技术问题,本申请提供一种同源网站扩展的方法,包括:
获取待扩展网站URL和任务相关参数;
对所述待扩展网站URL发起HTTP或HTTPS请求得到响应信息;
从所述响应信息中提取待扩展网站对应的网站特征得到网站特征集合;
从所述网站特征集合中选取目标网站特征,并将所述目标网站特征转换为网络空间搜索引擎可识别的查询字符串;
调用所述网络空间搜索引擎,以便所述网络空间搜索引擎根据所述任务相关参数验证所述目标网站特征的标志性以确定所述待扩展网站对应的同源网站。
优选地,所述从所述响应信息中提取待扩展网站对应的网站特征得到网站特征集合包括:
解析所述响应信息得到响应正文;
从所述响应正文中提取指定标签中的所述网站特征;其中,所述指定标签为多个;
对提取的所有所述网站特征进行过滤以得到所述网站特征集合。
优选地,从所述网站特征集合中选取目标网站特征包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210329980.4/2.html,转载请声明来源钻瓜专利网。