[发明专利]网页暗链检测方法、装置及计算机可读存储介质有效
申请号: | 201710316339.6 | 申请日: | 2017-05-05 |
公开(公告)号: | CN107273416B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 刘毅 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/35 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 检测 方法 装置 计算机 可读 存储 介质 | ||
1.一种网页暗链检测方法,其特征在于,所述方法应用于设置在Web浏览器和Web服务器之间的应用防火墙,所述方法包括如下步骤:
获取预设网页分类模型的训练集,所述训练集中的网页根据所述网页分类模型被划分为表示不含有暗链的正例样本和表示含有暗链的负例样本,且所述正例样本和所述负例样本分别被划分为若干网页类型,其中,所述正例样本的网页类型包括正常游戏资讯网页、医疗机构网页、高校网页、购物网页和/或新闻资讯网页,所述负例样本的网页类型包括网游外挂、医疗广告、色情赌博、办证培训和/或商业广告;
获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量;
基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量,并根据所述网页分类模型确定所述邻近向量对应的网页类型,作为所述待检测网页的候选网页类型;
分别计算所述待检测网页属于每个候选网页类型的概率;
判断概率最大值对应的候选网页类型属于所述正例样本还是所述负例样本,若属于所述负例样本,则判定所述待检测网页中含有暗链。
2.如权利要求1所述的方法,其特征在于,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤包括:
获取待检测网页的文本特征集和所述训练集中的网页的文本特征集,其中,所述待检测网页的文本特征集和所述训练集中的网页的文本特征集包含相同的关键词;
根据所述关键词在所述待检测网页的文本特征集中的词频和权重进行计算,得到所述待检测网页的文本特征向量;
根据所述关键词在所述训练集中的网页的文本特征集中的词频和权重进行计算,得到所述训练集中的网页的文本特征向量。
3.如权利要求2所述的方法,其特征在于,所述获取待检测网页的文本特征集和所述训练集中的网页的文本特征集的步骤包括:
获取所述训练集中的网页的文本;
对获取到的所述文本进行分词和去停用词处理;
从处理结果中提取若干关键词,得到所述训练集中的网页的文本特征集;
将得到的所述训练集中的网页的文本特征集作为所述待检测网页的文本特征集。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于邻近算法从所述训练集中选取若干个与所述待检测网页的文本特征向量符合预设相似条件的网页的文本特征向量,作为所述待检测网页的文本特征向量的邻近向量的步骤包括:
根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度;
若计算得到的所述文本相似度大于或等于预设阈值,则将对应的所述训练集中的网页的文本特征向量作为所述待检测网页的文本特征向量的邻近向量。
5.如权利要求4所述的方法,其特征在于,所述根据获取到的所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量,计算所述待检测网页与所述训练集中的网页的文本相似度的步骤包括:
计算所述待检测网页的文本特征向量和所述训练集中的网页的文本特征向量之间的夹角的余弦值;
将计算结果作为所述待检测网页和所述训练集中的网页的文本相似度。
6.如权利要求5所述的方法,其特征在于,所述分别计算所述待检测网页属于每个候选网页类型的概率的步骤包括:
基于所述候选网页类型将计算得到的所述文本相似度进行划分;
分别计算每个候选网页类型下的文本相似度的平均值,作为所述待检测网页属于对应候选网页类型的概率。
7.如权利要求1所述的方法,其特征在于,所述获取待检测网页的文本特征向量和所述训练集中的网页的文本特征向量的步骤之前,还包括:
通过爬虫程序定时爬取预设的待检测网页;
或者,当侦测到网络访问请求时,将所述网络访问请求的响应网页作为待检测网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710316339.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于地理位置的搜索方法
- 下一篇:一种管道走向图物料清单的生成方法和装置