[发明专利]一种WEB应用系统敏感文字的检测方法及系统有效
申请号: | 201310124839.1 | 申请日: | 2013-04-11 |
公开(公告)号: | CN103279476A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 陈剑锋;杨永滨 | 申请(专利权)人: | 深圳市易聆科信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市君胜知识产权代理事务所 44268 | 代理人: | 刘文求;杨宏 |
地址: | 518057 广东省深圳市南山区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 web 应用 系统 敏感 文字 检测 方法 | ||
1.一种WEB应用系统敏感文字的检测方法,其特征在于,包括以下方法步骤:
S1. 每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;
S2. 使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测,并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将判定出的敏感文字进行自动分词,生成初步敏感文字分词列表;
S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析,并对敏感文字进行统一,形成最终敏感词文字分词列表;
S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;
S5.汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。
2.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在上述步骤S1中抓取到的页面内容以原始格式存于硬盘,页面的内容包含js脚本、链接、图片和文字内容信息。
3.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在步骤S5中还包括:将所述敏感文字库相对比敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中,完成敏感文字库的自动更新。
4.根据权利要求3所述WEB应用系统敏感文字的检测方法,其特征在于,将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。
5.根据权利要求1所述WEB应用系统敏感文字的检测方法,其特征在于,在步骤S5中所述输出显示方法包括:使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。
6.一种WEB应用系统敏感文字的检测系统,其特征在于,所述系统包括以下模块:
网站内容抓取模块,用于每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;
第一次模糊检测模块,使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将这些敏感文字进行自动分词,生成初步敏感文字分词列表;
第二次模糊检测模块,将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对网站内容进行第二次模糊检测,并将敏感文字进行统一,形成最终敏感词文字分词列表;
敏感文字检测分析模块,利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;
检测结果输出模块,汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。
7.根据权利要求6所述WEB应用系统敏感文字的检测系统,其特征在于,还包括敏感文字库更新模块,用于将所述敏感文字库相对比最终敏感文字分词列表中不存在的敏感文字分词补入到敏感文字库中,完成敏感文字库的自动更新。
8.根据权利要求7所述WEB应用系统敏感文字的检测系统,其特征在于,所述敏感文字库更新模块中将所述敏感文字库中不存在的敏感文字分词通过自动添加或者手动添加的方式补入敏感文字库中。
9.根据权利要求6所述WEB应用系统敏感文字的检测系统,其特征在于,检测结果输出模块中使用列表的形式链接敏感文字及其对应的网站地址并输出文本格式的检测报告。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市易聆科信息技术有限公司,未经深圳市易聆科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310124839.1/1.html,转载请声明来源钻瓜专利网。