[发明专利]一种网址检测方法及装置有效
申请号: | 202110482243.3 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113242223B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 刘厚泽 | 申请(专利权)人: | 刘厚泽 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06V30/42 |
代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 杨国瑞 |
地址: | 253000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网址 检测 方法 装置 | ||
1.一种网址检测方法,其特征在于,包括:
响应于用户通过联网操作进行网页访问时,获取所述网页访问对应的访问网址;
判断所述访问网址是否为历史违法网址;
若否,则抓取所述访问网址对应网页内的所有页面内容;
根据所述页面内容,得到所述访问网址的页面特征,其中,所述页面特征用于表征所述访问网址对应网页内的文字特性、图像特性以及页面排版特性;
根据所述页面特征以及所述页面内容,得出所述访问网址的检测结果;
抓取所述访问网址对应网页内的所有页面内容,包括:
获取所述访问网址的网站备案信息;
访问所述访问网址,以便进入所述访问网址对应的网页页面;
截取所述网页页面的页面图像,其中,所述页面图像包含有完整的所述网页页面;
获取所述网页页面的至少一个链接网址,以及所述网页页面内的至少一个视频内容;
利用所述网站备案信息、所述页面图像、所述至少一个链接网址以及所述至少一个视频内容,组成所述页面内容。
2.如权利要求1所述的方法,其特征在于,根据页面内容,得到所述访问网址的页面特征,包括:
对所述页面图像进行图像识别,得到所述页面图像内的文字识别结果、图像识别结果以及页面排版识别结果;
利用所述文字识别结果、所述图像识别结果以及所述页面排版识别结果,组成所述页面特征。
3.如权利要求1所述的方法,其特征在于,根据所述页面特征以及所述页面内容,得出所述访问网址的检测结果,包括:
利用模糊匹配算法,计算所述页面内容以及所述页面特征的权重,分别得到内容权重以及特征权重;
求和所述内容权重以及所述特征权重,得到所述访问网址的第一权重总和;
根据所述第一权重总和,得出所述访问网址的检测结果,其中,所述第一权重总和小于第一阈值时,所述访问网址为安全网址,所述第一权重总和大于第二阈值时,所述访问网址为违法网址,所述第一权重总和处于所述第一阈值与所述第二阈值之间时,所述访问网址为疑似违法网址,且所述第一阈值小于所述第二阈值。
4.如权利要求3所述的方法,其特征在于,根据所述第一权重总和,得出所述访问网址的检测结果后,所述方法还包括:
判断第一目标网址在第一预设时长内的访问次数是否大于第一预设值,其中,所述第一目标网址为第一权重总和小于所述第一阈值的访问网址;
若是,则重新计算所述第一目标网址的第一权重总和,以便根据重新计算得到的第一权重总和重新得出所述第一目标网址的检测结果。
5.如权利要求3所述的方法,其特征在于,根据所述第一权重总和,得出所述访问网址的检测结果后,所述方法还包括:
按照预设时间间隔,重新计算第二目标网址的第一权重总和,得到所述第二目标网址的第二权重总和,其中,所述第二目标网址为第一权重总和处于所述第一阈值与所述第二阈值之间的访问网址;
判断所述第二目标网址的第二权重总和是否大于所述第二目标网址的第一权重总和;或
判断所述第二目标网址在第二预设时长内的访问次数是否小于或等于第二预设值;
若是,则将所述第二目标网址对应的页面内容发送至网络管理中心,以使所述网络管理中心的工作人员根据所述第二目标网址的页面内容确认所述第二目标网址是否为疑似违法网址。
6.如权利要求3所述的方法,其特征在于,根据所述第一权重总和,得出所述访问网址的检测结果后,所述方法还包括:
将第三目标网址存入黑名单数据库中,并将所述第三目标网址对应的页面内容发送至网络管理中心,以使所述网络管理中心的工作人员根据所述第三目标网址对应的页面内容确认所述第三目标网址是否为违法网址,其中,所述第三目标网址为第一权重总和大于所述第二阈值的访问网址。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘厚泽,未经刘厚泽许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110482243.3/1.html,转载请声明来源钻瓜专利网。