[发明专利]一种网站敏感词屏蔽方法在审
申请号: | 201710349658.7 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193930A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 向敏明 | 申请(专利权)人: | 东莞市华睿电子科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523073 广东省东莞*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 敏感 屏蔽 方法 | ||
1.一种网站敏感词屏蔽方法,其特征在于,所述方法包括:
抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语;
依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度,并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;
若匹配成功,则对网站上匹配成功的所述第一词语进行屏蔽处理。
2.根据权利要求1所述的网站敏感词屏蔽方法,其特征在于,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
3.根据权利要求2所述的网站敏感词屏蔽方法,其特征在于,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
4.根据权利要求3所述的网站敏感词屏蔽方法,其特征在于,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市华睿电子科技有限公司,未经东莞市华睿电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710349658.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熨烫鞋面的鞋面定位装置及其定位方法
- 下一篇:一种防静电耐高温拉链