[发明专利]自定义检测网站敏感信息的方法及装置在审
申请号: | 201710794987.2 | 申请日: | 2017-09-06 |
公开(公告)号: | CN107579976A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 李轶共;范渊;黄进 | 申请(专利权)人: | 杭州安恒信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙)11371 | 代理人: | 张海洋 |
地址: | 310051 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自定义 检测 网站 敏感 信息 方法 装置 | ||
1.一种自定义检测网站敏感信息的方法,其特征在于,所述方法包括:
根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
2.根据权利要求1所述的方法,其特征在于,根据用户的触发操作获取待检测网站的页面信息的文件表格包括:
接收所述用户发送的安装爬虫应用程序的安装指令,以创建所述爬虫应用程序的爬虫环境;
接收所述用户发送的所述待检测网站的站点信息;
基于所述爬虫环境对所述待检测网站中的URL链接进行爬取,得到多个URL链接;
对所述多个URL链接按照预设过滤规则进行过滤,得到过滤后的多个URL链接;
获取所述待检测网站中的多个文本信息,并对所述多个文本信息按照预设格式进行转译,得到转译后的多个文本信息;
按照所述多个文本信息与所述多个URL链接的原始匹配关系,建立所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系;
将所述过滤后的多个URL链接与所述转译后的多个文本信息之间的匹配关系作为所述待检测网站的所述文件表格。
3.根据权利要求1所述的方法,其特征在于,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接包括:
对所述敏感信息词组进行分词处理,得到分词后的敏感信息词组;
在所述文件表格中查找与所述分词后的敏感信息词组相匹配的所述敏感信息;
根据所述敏感信息确定与所述敏感信息相对应的目标URL链接。
4.根据权利要求3所述的方法,其特征在于,根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接还包括:
如果所述文件表格中不包含与所述分词后的敏感信息词组相匹配的所述敏感信息,则输出未发现所述敏感信息的结果。
5.根据权利要求1所述的方法,其特征在于,在根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量之后,所述方法还包括:
标记所述敏感信息在所述待检测网站中的出现位置和所述敏感信息的数量;
向所述用户发送提示信息,其中,所述提示信息用于提示所述用户对所述待检测网站进行修补。
6.一种自定义检测网站敏感信息的装置,其特征在于,所述装置包括:
获取模块,用于根据用户的触发操作获取待检测网站的页面信息的文件表格,其中,所述文件表格中包含:所述待检测网站的文本信息与所述待检测网站的URL链接之间的匹配关系;
接收模块,用于接收所述用户发送的敏感信息词组,其中,所述敏感信息词组的数量至少一个;
查找模块,用于根据所述敏感信息词组在所述文件表格中查找与所述敏感信息词组相匹配的敏感信息,并确定出与所述敏感信息相对应的目标URL链接;
确定模块,用于根据所述目标URL链接确定所述敏感信息在所述待检测网站中的显示位置,并统计所述敏感信息的数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术有限公司,未经杭州安恒信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710794987.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能路灯用的锂电池壳
- 下一篇:一种密钥防盗方法及装置