[发明专利]一种网页敏感词检测方法、检测系统及相关装置在审
申请号: | 202010548352.6 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111680128A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 徐凯熙;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953;G06F40/284 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 高勇 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 敏感 检测 方法 系统 相关 装置 | ||
本申请提供一种网页敏感词检测方法,包括:获取网页数据和检测需求;对所述网页数据进行文本提取,得到文本关键词;利用基于所述检测需求的AC自动机对所述文本关键词进行敏感词检测,得到敏感词检测结果。本申请对网页数据进行有效分词,将分词后的词语分别检测,表面出现规则匹配时的误报情况,减少误报率。本申请还提供一种网页敏感词检测方法、检测系统、计算机可读存储介质和电子设备,具有上述有益效果。
技术领域
本申请涉及网络安全领域,特别涉及一种网页敏感词检测方法、检测系 统及相关装置。
背景技术
网页敏感词是指网页内容中含有的使用不当的词汇,出现的原因可能是 管理员上传内容时未仔细审核,或是网站内容被黑客篡改,在原本正常的网 页上添加了敏感词汇。
现有技术中存在利用规则匹配进行敏感词的检测,根据规则匹配技术, 会将原本正常的网页内容错误的切割出敏感词,导致检测结果出现误报。因 此如何避免敏感词的误检测是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种网页敏感词检测方法、检测系统、计算机可读 存储介质和电子设备,能够降低敏感词的误检测率。
为解决上述技术问题,本申请提供一种网页敏感词检测方法,具体技术 方案如下:
获取网页数据和检测需求;
对所述网页数据进行文本提取,得到文本关键词;
利用基于所述检测需求的AC自动机对所述文本关键词进行敏感词检测, 得到敏感词检测结果。
可选的,利用基于所述检测需求的AC自动机对所述文本关键词进行敏感 词检测之前,还包括:
基于所述检测需求生成AC自动机。
可选的,基于所述检测需求生成AC自动机包括:
根据所述检测需求确定敏感词组,并生成所述敏感词组对应的字典树;
利用双数组字典树生成算法将所述字典树中的每个状态映射到双数组, 生成双数组字典树,并记录所述状态在双数组中的下标;
根据所述双数组字典树生成AC自动机,所述AC自动机中fail表中存有 所述下标。
可选的,对所述网页数据进行文本提取,得到文本关键词包括:
对所述网页数据进行文本分割,得到最短词语集合;
利用Textrank将所述最短词语集合作为节点构建网络,利用PageRank迭 代计算所述网络中每个节点的rank值,对所述rank值排序得到所述文本关键 词。
可选的,对所述网页数据进行文本分割,得到最短词语集合包括:
利用基于HanLP分词算法的词法分析器对所述网页数据进行文本分割, 得到最短词语集合。
可选的,得到敏感词检测结果之后,还包括:
根据所述文本关键词所属类别过滤所述敏感词检测结果中的误报结果, 得到精确检测结果。
本申请还提供一种网页敏感词检测系统,包括:
获取模块,用于获取网页数据和检测需求;
文本提取模块,用于对所述网页数据进行文本提取,得到文本关键词;
检测模块,用于利用基于所述检测需求的AC自动机对所述文本关键词进 行敏感词检测,得到敏感词检测结果。
可选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010548352.6/2.html,转载请声明来源钻瓜专利网。