[发明专利]一种网站敏感词屏蔽方法在审
申请号: | 201710349658.7 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193930A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 向敏明 | 申请(专利权)人: | 东莞市华睿电子科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523073 广东省东莞*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 敏感 屏蔽 方法 | ||
技术领域
技术领域
在现在的网络通信或数据处理过程中,常常会产生对两个词语进行相似度匹配的需求。
现有技术主要采用的匹配方式为字面含义的匹配,通过相同或近似的字来判断词语是否匹配,例如“接近”和“靠近”,由于都具有“近”这个字,系统会判断这两个词匹配度较高。
但是,文字的内涵博大精深,仅仅依靠字面含义进行匹配经常容易出现错误,从而严重影响了匹配精确度。
发明内容
本发明提供了一种网站敏感词屏蔽方法。
一种网站敏感词屏蔽方法,其中,所述方法包括:
抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语;
依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;
根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;
若匹配成功,则对网站上匹配成功的所述第一词语进行屏蔽处理。
可选的,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
可选的,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
可选的,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
可选的,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:
按照如下公式计算所述概念相似度Sim(Si,Tj):
可选的,在所述抓取网站文字信息的步骤中还包括:
每隔预定时间获取网站首页的文字信息,以及获取与首页相链接的第一层网页文字信息和与首页相链接的第二层网页文字信息。
可选的,在抓取网站文字信息,对所述文字信息进行分组后,还包括步骤:
将分组后得到的各个分词保存到待检测数组中;
判断待检测数组中是否含有重复的分词,若有,则仅仅保留第一次出现的分词。
可选的,在上述步骤之后还包括:
使用预定字符替换被屏蔽的第一词语在网站上显示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市华睿电子科技有限公司,未经东莞市华睿电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710349658.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种熨烫鞋面的鞋面定位装置及其定位方法
- 下一篇:一种防静电耐高温拉链