[发明专利]一种暗链检测方法、装置、设备及计算机可读存储介质在审
申请号: | 201910832862.3 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110532784A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 李成;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F16/955 |
代理公司: | 11227 北京集佳知识产权代理有限公司 | 代理人: | 张春辉<国际申请>=<国际公布>=<进入 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标网站 链接 检测 网页内容 文本内容 相似度 预设 计算机可读存储介质 筛选 相似度对比 语义相似度 检测装置 指令采集 算法 申请 非法 | ||
本申请公开了一种暗链检测方法,包括根据获取的检测指令采集目标网站中的网页内容;根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链;该暗链检测方法可以有效提高非法暗链检测的准确性。本申请还公开了一种暗链检测装置、设备及计算机可读存储介质,均具有上述有益效果。
技术领域
本申请涉及互联网信息安全技术领域,特别涉及一种暗链检测方法,还涉及一种暗链检测装置、设备以及计算机可读存储介质。
背景技术
暗链是指隐藏的超链接,在网站中非常隐蔽,短时间内不易被搜索引擎察觉,在网站优化方面具有较大的优势,例如,可以通过其他网站的不足或漏洞较为便利的获取到大量的外链资源,有效降低投资外链成本,以及减少创建外链的工作量,还可以提高网站的PR值(PageRank,用于表现网页等级的标准,级别为0~10,主要用来测评一个网页的重要性)等。
然而,网站暗链的存在也会给网站带来一定的风险,由于暗链是隐形看不见的,所以网站容易被不法分子攻破,添加大量的具有危险性的暗链,从而降低网站原有的PR值以及网站相应的公信力,因此,需要对网站中的非法暗链进行检测,以降低网站运行风险。现有技术中的非法暗链检测都是基于描述暗链的基本特征,加之人工介入实现,存在较多的漏报或误报问题,导致暗链检测结果的准确性很低,且人工的介入也导致了成本的增加。
因此,如何有效提高非法暗链检测的准确性是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种暗链检测方法,该暗链检测方法可以有效提高非法暗链检测的准确性;本申请的另一目的是提供一种暗链检测装置、设备以及计算机可读存储介质,也具有上述有益效果。
为解决上述技术问题,本申请提供了一种暗链检测方法,所述暗链检测方法包括:
根据获取的检测指令采集目标网站中的网页内容;
根据预设隐藏特征对所述网页内容进行筛选,获得各初始隐藏链接;
利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比,获得各所述初始隐藏链接相对于所述目标网站的相似度;
筛选所述相似度低于预设阈值的初始隐藏链接,获得所述目标网站中的非正常暗链。
优选的,所述根据获取的检测指令采集目标网站中的网页内容之前,还包括:
获取所述目标网站的注册信息;
根据所述注册信息判断所述目标网站是否超出有效期;
若否,则执行所述根据获取的检测指令采集目标网站中的网页内容的步骤。
优选的,所述根据获取的检测指令采集目标网站中的网页内容,包括:
根据获取的所述检测指令确定所述目标网站;
利用浏览器渲染技术对所述目标网站进行网页采集,获得所述网页内容。
优选的,所述利用语义相似度算法对各所述初始隐藏链接的文本内容和所述目标网站的文本内容进行相似度对比之前,还包括:
对各所述初始隐藏链接进行遍历,滤除无效隐藏链接。
优选的,所述对各所述初始隐藏链接进行遍历,滤除无效隐藏链接之后,还包括:
对各所述初始隐藏链接进行遍历,滤除属于主域和本域的初始隐藏链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832862.3/2.html,转载请声明来源钻瓜专利网。