[发明专利]网页识别方法、装置、计算机设备及存储介质有效
申请号: | 201711297266.7 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108092963B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 王元铭 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08;H04L29/12;G06F16/951 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊 |
地址: | 518052 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 识别 方法 装置 计算机 设备 存储 介质 | ||
1.一种网页识别方法,其特征在于,包括:
获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
根据所述网站域名获取所述网站对应的网络地址;
查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
获取所述待识别域名对应的网站中的网页数据;
根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页;包括:将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网页数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页;
当经过所述预设的黑名单与所述预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在所述安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
2.根据权利要求1所述的方法,其特征在于,所述查找与所述网络地址关联的域名的步骤,包括:
将所述网络地址与地址关联库中预存储的网络地址进行匹配;
当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;
获取所述待匹配关联域名的有效截止时间;
若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。
4.根据权利要求3所述的方法,其特征在于,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:
获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;
根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;
将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;
当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。
5.根据权利要求1所述的方法,其特征在于,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:
提取所述风险等级大于预设等级的网页的网页数据的关键字,根据所述关键字对所述风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签;
将所述风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配;
当未匹配成功时,则添加所述风险等级大于预设等级的待识别域名的类别标签,并将所述风险等级大于预设等级的网页存储至所述类别标签下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711297266.7/1.html,转载请声明来源钻瓜专利网。