[发明专利]一种网站敏感词屏蔽方法在审
申请号: | 201710349658.7 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107193930A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 向敏明 | 申请(专利权)人: | 东莞市华睿电子科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 523073 广东省东莞*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种网站敏感词屏蔽方法,抓取网站上的文字信息,将网站上的文字信息作为第一词语,将预设敏感词数据库中的词语作为第二词语,分别计算第一词语与第二词语的词语相似度,并将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功,若匹配成功,则对第一词语进行屏蔽处理。本发明中,在进行数据匹配时要对词语进行拆分,形成概念集合,而概念集合中的概念可以最大程度的涵盖词语的本质含义,所以从概念的粒度对词语进行匹配,可以有效的提高匹配的精确度,因此可以取得较佳的敏感词屏蔽效果。 | ||
搜索关键词: | 一种 网站 敏感 屏蔽 方法 | ||
【主权项】:
一种网站敏感词屏蔽方法,其特征在于,所述方法包括:抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语;依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度,并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;若匹配成功,则对网站上匹配成功的所述第一词语进行屏蔽处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞市华睿电子科技有限公司,未经东莞市华睿电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710349658.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种熨烫鞋面的鞋面定位装置及其定位方法
- 下一篇:一种防静电耐高温拉链