[发明专利]显示扫描进度的方法及装置有效
申请号: | 201310728802.X | 申请日: | 2013-12-25 |
公开(公告)号: | CN103699845B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 郭朝辉;张龙;张楠 | 申请(专利权)人: | 北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 显示 扫描 进度 方法 装置 | ||
1.一种显示扫描进度的方法,其特征在于,包括:
根据爬虫模块当前已爬取完成的页面链接的数目以及在爬虫模块当前已爬取完成的页面链接中需要扫描模块进行扫描的页面链接的数目,确定爬取扫描产出比;
根据所述爬取扫描产出比以及爬虫模块将要爬取的页面链接的数目,确定在爬虫模块将要爬取的页面链接中需要扫描模块进行扫描的页面链接的数目;
根据在爬虫模块当前已爬取完成的页面链接中需要扫描模块进行扫描的页面链接的数目以及在爬虫模块将要爬取的页面链接中需要扫描模块进行扫描的页面链接的数目,确定需要扫描模块进行扫描的所有页面链接的数目;
确定扫描模块当前已扫描完成的页面链接的数目;
根据扫描模块当前已扫描完成的页面链接的数目以及需要扫描模块进行扫描的所有页面链接的数目,确定当前扫描进度,并显示确定出的当前扫描进度;
其中,确定扫描模块当前已扫描完成的页面链接的数目,具体包括:
根据扫描模块已扫描完成的各页面链接对应的扫描时长以及扫描模块已扫描完成的页面链接的数目,确定扫描模块扫描每个页面链接时的平均扫描时长;
根据扫描模块正在扫描的每个页面链接对应的开始扫描时间、扫描模块正在扫描的页面链接的数目以及扫描模块扫描每个页面链接时的平均扫描时长,确定扫描模块预估扫描完成的页面链接的数目;
根据扫描模块已扫描完成的页面链接的数目以及扫描模块预估扫描完成的页面链接的数目,确定扫描模块当前已扫描完成的页面链接的数目。
2.如权利要求1所述的方法,其特征在于,通过下述方式确定爬取扫描产出比:
其中,cor为爬取扫描产出比;
accept为在爬虫模块当前已爬取完成的页面链接中需要扫描模块进行扫描的页面链接的数目;
finished为爬虫模块当前已爬取完成的页面链接的数目。
3.如权利要求1所述的方法,其特征在于,通过下述方式确定在爬虫模块将要爬取的页面链接中需要扫描模块进行扫描的页面链接的数目:
to_scanned=to_crawl*cor
其中,to_scanned为在爬虫模块将要爬取的页面链接中需要扫描模块进行扫描的页面链接的数目;
to_crawl为爬虫模块将要爬取的页面链接的数目;
cor为爬取扫描产出比。
4.如权利要求1所述的方法,其特征在于,通过下述方式确定需要扫描模块进行扫描的所有页面链接的数目:
total=accept+to_scanned
其中,total为需要扫描模块进行扫描的所有页面链接的数目;
accept为在爬虫模块当前已爬取完成的页面链接中需要扫描模块进行扫描的页面链接的数目;
to_scanned为在爬虫模块将要爬取的页面链接中需要扫描模块进行扫描的页面链接的数目。
5.如权利要求1所述的方法,其特征在于,还包括:
根据扫描模块扫描每个页面链接时的平均扫描时长以及扫描模块正在扫描的页面链接的数目,确定间隔时长;并
在经过确定出的所述间隔时长后,更新扫描模块预估扫描完成的页面链接的数目。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司,未经北京神州绿盟信息安全科技股份有限公司;北京神州绿盟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310728802.X/1.html,转载请声明来源钻瓜专利网。