[发明专利]URL分析方法、装置、设备及介质有效
申请号: | 201910687531.5 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110460592B | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 李中帅 | 申请(专利权)人: | 光通天下网络科技股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/951 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 郑思思 |
地址: | 321017 浙江省金华市婺城*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | url 分析 方法 装置 设备 介质 | ||
1.一种URL分析方法,其特征在于,包括以下步骤:
接收URL数据,将所述URL数据储存在URL数据库中;
所述的URL数据与威胁库进行匹配,过滤有威胁的URL数据,得到安全URL数据,威胁记录存入威胁记录库;
其中,所述威胁库包括已知有威胁的URL,所述威胁记录库包括有威胁的URL数据与所述威胁库进行匹配的威胁记录;
所述安全URL数据与行为库中的已知URL进行匹配:
所述安全URL数据匹配成功时,得到行为记录并存入行为记录库,所述行为记录为安全URL对应的行为类别;
所述安全URL数据匹配失败时,对匹配失败的URL,称为未知URL,提取目标关键词,根据所述行为库中的关键词进行关键词分析,分析结果作为所述的行为记录存入行为记录库,其中,所述行为库包括URL库与关键词库,所述URL库包括已知URL及其对应的行为类别,所述关键词库包括所述行为类别对应的关键词,所述关键词库根据权重分为:高于预设权重的判定关键词库及低于预设权重的其他关键词库,所述的其他关键词库根据权重由高到低还分为未判定关键词库与非判定关键词库,所述判定关键词库存有行为类别对应的一组或多组判定关键词及频数,所述的关键词分析通过与判定关键词库进行匹配得到所述的分析结果;
其中,所述目标关键词通过下述方式得到:爬取所述未知URL的网页;对所述网页的内容进行分词,得到所述网页中的所有关键词;计算所有关键词的权重;筛选出高于预设权重的关键词,得到所述的目标关键词;其中,所述关键词的权重使用TF-IDF算法计算得到;
根据所述分析结果中的目标关键词、未知URL及其对应的行为类别更新行为库,其中所述根据所述分析结果中的目标关键词、未知URL及其对应的行为类别更新行为库,包括以下步骤:
将所述目标关键词及其频数加入行为库;
根据更新后的关键词,重新计算每个关键词权重,根据权重更新所述的行为库,其中,所述根据权重更新所述的行为库包括:对于所述判定关键词库中低于预设权重的关键词加入到所述未判定关键词库中;对于所述未判定关键词库中权重降低的关键词加入到所述非判定关键词库中,高于预设权重的关键词加入到所述判定关键词库中。
2.如权利要求1所述的URL分析方法,其特征在于,所述的未知URL网页还包括爬虫随机爬取的URL。
3.如权利要求2所述的URL分析方法,其特征在于,所述的关键词分析通过与判定关键词库进行匹配,得到所述的分析结果,包括以下步骤:
任意选取一个行为类别,得到该行为类别对应的判定关键词及所述判定关键词的频数,记为第一频数,以第一频数构建第一数组;
统计所述未知URL中权重高于预设权重的目标关键词及所述目标关键词的频数,记为第二频数,以第二频数构建第二数组;
将第一数组和第二数组进行相似度比对,得到所述未知URL与所述行为类别的相似度值;
依此,计算未知URL与所有行为类别的相似度,得到所述分析结果,所述分析结果为与未知URL数据相似度最大的行为类别。
4.如权利要求1所述的URL分析方法,其特征在于,将所述URL数据库中的数据推送到安全平台,根据所述安全平台返回的结果更新所述的威胁库,所述返回的结果为新增威胁URL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于光通天下网络科技股份有限公司,未经光通天下网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910687531.5/1.html,转载请声明来源钻瓜专利网。