[发明专利]一种暗链检测方法、装置、设备及计算机可读存储介质在审
申请号: | 201910832862.3 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110532784A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李成;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F16/955 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 张春辉<国际申请>=<国际公布>=<进入 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标网站 链接 检测 网页内容 文本内容 相似度 预设 计算机可读存储介质 筛选 相似度对比 语义相似度 检测装置 指令采集 算法 申请 非法 | ||
1.一种暗链检测方法,其特征在于,包括:
根据获取的检测指令采集目标网站中的网页内容;
根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
2.如权利要求1所述的暗链检测方法,其特征在于,所述根据获取的检测指令采集目标网站中的网页内容之前,还包括:
获取所述目标网站的注册信息;
根据所述注册信息判断所述目标网站是否超出有效期;
若否,则执行所述根据获取的检测指令采集目标网站中的网页内容的步骤。
3.如权利要求1所述的暗链检测方法,其特征在于,所述根据获取的检测指令采集目标网站中的网页内容,包括:
根据获取的所述检测指令确定所述目标网站;
利用浏览器渲染技术对所述目标网站进行网页采集,获得所述网页内容。
4.如权利要求1所述的暗链检测方法,其特征在于,所述利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比之前,还包括:
对各所述初始隐藏链接进行遍历,滤除无效隐藏链接。
5.如权利要求4所述的暗链检测方法,其特征在于,所述对各所述初始隐藏链接进行遍历,滤除无效隐藏链接之后,还包括:
对各所述初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
6.如权利要求1至5任意一项所述的暗链检测方法,其特征在于,所述筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链之后,还包括:
将各所述非正常暗链与预设白名单内的各合法链接进行比对,并将与所述合法链接相同的非正常暗链滤除。
7.如权利要求6所述的暗链检测方法,其特征在于,所述将与所述合法链接相同的非正常暗链滤除之后,还包括:
对各所述非正常暗链进行分词处理,并将分词后的非正常暗链的文本内容与预设敏感词库中的各敏感词汇进行对比,筛选获得含有所述敏感词汇的非正常暗链。
8.一种暗链检测装置,其特征在于,包括:
信息采集模块,用于根据获取的检测指令采集目标网站中的网页内容;
第一筛选模块,用于根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
相似度计算模块,用于利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
第二筛选模块,用于筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
9.一种暗链检测设备,其特征在于,还包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任意一项所述的暗链检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的暗链检测方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832862.3/1.html,转载请声明来源钻瓜专利网。