[发明专利]一种WEB应用系统敏感文字的检测方法及系统有效
申请号: | 201310124839.1 | 申请日: | 2013-04-11 |
公开(公告)号: | CN103279476A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 陈剑锋;杨永滨 | 申请(专利权)人: | 深圳市易聆科信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市君胜知识产权代理事务所 44268 | 代理人: | 刘文求;杨宏 |
地址: | 518057 广东省深圳市南山区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种WEB应用系统敏感文字的检测方法及系统,该方法及系统对需要检测的网站内容进行抓取和使用预设的敏感文字库对网站内容进行敏感文字模糊检测;通过敏感文字语意分析对检测出的敏感文字进行分析,并将其进行自动分词,生成敏感文字分词列表;将该列表中的敏感文字分词与敏感文字库中的敏感文字进行比对并再次进行敏感文字模糊检测,形成最终敏感词文字分词列表,得出检测结果。本发明提供的方法和系统可以自动提取网页内容,并运用敏感文字语意分析和模糊检测等技术,从而可以更好的进行敏感文字的检测及其信息的提取,为网站安全信息的维护提供方便。 | ||
搜索关键词: | 一种 web 应用 系统 敏感 文字 检测 方法 | ||
【主权项】:
一种WEB应用系统敏感文字的检测方法,其特征在于,包括以下方法步骤:S1. 每隔一预定的时间对需要进行检测的网站进行检测,抓取检测网站的首页内容及与首页链接的第一层和第二层的内容;S2. 使用预先设置的敏感文字库对抓取到的网站内容进行第一次模糊检测,并使用敏感文字语意分析自动对第一次模糊检测出的文字进行语意分析,判断其是否为敏感文字,并将判定出的敏感文字进行自动分词,生成初步敏感文字分词列表; S3.将形成的初步敏感文字分词列表中的敏感文字分词与所述敏感文字库中的敏感文字进行比对,过滤掉非敏感文字的分词,再次使用敏感文字语意分析对过滤后的敏感文字分词列表中的分词进行语意分析,并对敏感文字进行统一,形成最终敏感词文字分词列表;S4.利用最终敏感词文字分词列表对抓取到的网站内容进行第二次模糊检测,并记录其中敏感文字库中相同的敏感文字和与敏感文字库中敏感文字语意相同或者相似的模糊敏感文字,使用敏感文字语意分析对模糊敏感文字进行语意分析,判断其是否为敏感文字,并将判定为敏感文字的模糊敏感文字汇总到敏感文字中;S5.汇总敏感文字及出现敏感文字的网络地址,并将汇总结果进行输出显示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市易聆科信息技术有限公司,未经深圳市易聆科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310124839.1/,转载请声明来源钻瓜专利网。