[发明专利]网站敏感词检测系统及方法在审
申请号: | 202011454305.1 | 申请日: | 2020-12-10 |
公开(公告)号: | CN112417305A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 王亚军;于航海;冯耀麟;尚国财;柳乐;赵雄浩 | 申请(专利权)人: | 北京冠程科技有限公司;北京路劲科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06F40/279 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 102200 北京市昌平区科技园*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 敏感 检测 系统 方法 | ||
本发明公开了一种网站敏感词检测系统及方法,属于网站信息维护的技术领域,其包括输入模块、图像转化模块、检测模块、路径显示模块和信息显示模块;输入模块接收输入的域名、IP地址和带有敏感词的标题;图像转化模块接收输入模块输出的带有敏感词的标题,图像转化模块将标题按照不同的字体转化为图片;检测模块根据域名、IP地址和标题以及图片对网站进行检测;路径显示模块将接收到的带有敏感信息的网站的含有标题或图片的文件路径进行显示;信息显示模块将接收到的带有敏感信息的网站的域名、IP地址以及该网站内带有标题或图片的信息进行显示,本发明具有能够对以图片等格式发送的敏感词进行检测,有效增加敏感词的剔除准确度的效果。
技术领域
本发明涉及网站信息维护的技术领域,尤其是涉及一种网站敏感词检测系统及方法。
背景技术
目前网站中出现了越来越多的“不明确的敏感词”,在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明用语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。许多网站因为敏感词导致网站被封停,造成经济损失。或是一些黑客利用弹框输入一些敏感词汇,许多浏览网站的游客通过操作触发弹框看见敏感词汇,引起社会舆论或对社会秩序造成影响,法律责任重大。
现有技术可参考申请公开号为CN110750981A的中国发明专利,其公开了一种基于机器学习的高准确度网站敏感词检测方法,将待检测文件首先与敏感词数据库进行规则匹配,得到包含敏感词的文档集合,对训练数据进行处理、学习以输出机器学习模型,随后将文档集合输入模型,得到网站敏感词检测结果。本发明结合机器学习算法进行模型训练,而后对爬取的网站页面首先进行敏感词规则匹配,然后再次对规则匹配后的输出网站进行机器学习自动分析,减少机器学习模型预测的数据量,提高检测速度和准确性,最终通过统计推算得出页面包含敏感词的可能性。
上述中的现有技术方案存在以下缺陷:虽然现在已有对网站敏感词进行检测拦截的方法,但是在目前恶意发送敏感词的方式多种多样,单纯依靠现有语言识别已经难以剔除全部敏感词了。
发明内容
本发明的目的是提供一种网站敏感词检测方法,能够对以图片等格式发送的敏感词进行检测,有效增加敏感词的剔除准确度,扩大敏感词的检测范围。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种网站敏感词检测方法,包括以下步骤:
一、输入需要检测的域名、IP地址,填写需要检测的带有敏感词的标题;
二、将标题按照不同的字体转化为图片;
三、在对应域名、IP地址的网站中检测标题和图片;
四、将检测到的网站的含有标题或图片的文件路径进行显示;
五、将带有敏感信息的域名、IP地址以及该域名内带有标题或图片的信息进行显示。
通过采用上述方案,用户在输入需要检测的敏感词和检测范围后,本方法可以自动为用户显示带有敏感词的信息和文件路径,方便用户对带有敏感词的信息进行处理,在检测时,能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,有效增大对敏感词的检测范围,增加对敏感词的剔除准确度。
本发明进一步设置为:还包括:
二a、在敏感词中的每个字之间添加空白字符;
三a、在对应域名、IP地址的网站中检测添加空白字符之后的敏感词,搜索时空白字符为一个任意字符。
通过采用上述方案,能够进一步拓展对敏感词的检测范围,避免有人用空格等简单字符将敏感词分割开来躲避检测。
本发明进一步设置为:还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京冠程科技有限公司;北京路劲科技有限公司,未经北京冠程科技有限公司;北京路劲科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011454305.1/2.html,转载请声明来源钻瓜专利网。