[发明专利]一种基于关键字的敏感词智能过滤方法在审
申请号: | 201711369633.X | 申请日: | 2017-12-06 |
公开(公告)号: | CN110019680A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陈飞 | 申请(专利权)人: | 杭州米络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/903;G06F16/958 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感词 智能过滤 敏感词检测 字符串匹配 语义 人工参与 通信领域 网站数据 用户评论 自动对比 字符串 算法 捕获 词语 字典 检索 留言 自动化 应用 环节 配合 分析 | ||
本发明涉及一种敏感词智能过滤方法,包括如下步骤:步骤1;步骤2;步骤3;步骤4;步骤6;步骤7。本发明的有益效果是:本方法能自能和高效的检索一段字符串,特点是该方法能根据语义来捕获特征词语,采用本发明后可以通过软件配合算法,能够实现免人工参与的自动化敏感词检测分析和字符串匹配,高效实时自动对比敏感词字典,提高了网站数据,尤其是在用户的即使通信领域的应用更是特别的有效,也可以使用在用户留言、用户评论等环节。
技术领域
本发明属于计算机通信网络技术领域,涉及一种字符串中敏感词过滤方 法。
背景技术
随着互联网的发展,网站内容和功能日益丰富,互联网上越来越多的网 站和软件提供了UGC(User Generated Content,用户生产内容)功能。文本内容的发布渠道越来越多,发布者也越 来越大众化,有时甚至是匿名的。但是同时也伴随着一个严重的问题的产生 ,许多不符合互联网使用环境甚至违反国家法律法规的内容,如政治敏感、 欺诈、色情词汇等被用户轻易的发布到互联网上,难以追溯或者追溯难度极 大。这个问题给互联网管理者们带来了极大的工作压力。
在即时通信领域这个问题更加严重,因为传统的留言、评论等功能,还 可以增加一道人工审核环节,只有审查通过的才运行发布,不合法的可以直 接删掉,但是即时聊天主要突出一个实时性,不能设置人工审查的环境,否 则就没有即时聊天的意义了。而且传统的留言、评论用人工审核的方式也有 缺点,比如成本巨大,人难免有看错或者有漏网之鱼。
现有的主要解决方案是敏感词匹配技术,但是目前本领域内的敏感词匹 配技术都有一个共同的缺点:敏感词匹配模式单一,不能匹配一些经过干扰 的文字,或者只能匹配简单的干扰,对文字的别名写法干扰无法匹配,不能 全面过滤垃圾信息,给敏感词的过滤速度带来了很大的压力。
因此,能有一套方法有效的解决这个问题,使互联网管理工作更方便更 高效,成为一个亟待解决的技术问题,特别是即时通讯领域尤其重要。
发明内容
发明的目的是针对上述问题,提供了一种基于关键字的敏感词智能过滤方法 ,使敏感词匹配带来一种全新的、更高效、更敏捷的方法,从而使网站、客 户端等软件可以更方便更灵活的处理敏感词的问题,它比目前本领域内其他 相同或相视的方法的优点是,它几乎能匹配一个关键词所有写法,只要在定 义关键词的时候,同时定义好每个字的别名既可以工作。本发明仅是一种算 法和逻辑方法的集合,不局限于某个平台上,它可以跨任何平台,用任何编 程语言,服务任何的敏感词过滤环境。所以本发明大大提高了互联网管理工作的便利性和高效性,也降低了管理和维护成本。
本发明还有一个特点:一般的敏感词都应该有一个生命期,在这个生命 期内他是有效的,过期后自动失效,这样可以保持当前的敏感词列表是最新 鲜最合适的,那些过时的敏感词不会自动包含到特征词库列表中。这样可以 也可以保持列表在一个合适的范围内,不会太大而影响性能。
为了解决上述技术问题,本发明提供了如下的技术方案:一种基于关键字的 敏感词智能过滤方法,包括如下步骤:步骤1,用户在后台预先定义好需要 过滤的敏感词的一般写法和这个词的有效期;步骤2,定义敏感词中每个字 的其他写法或接近的写法,本方法中这种写法称为别名;步骤3,程序根据 当前定义的敏感词和相关别名生产最终的特征词库供客户端程序调用;步骤 4,用户运行程序并自动加载最新的特征词库列表;步骤5,用户在相应的输 入框中输入一段字符串;步骤6,用特征词库列表中相应特征词检索用户输 入的字符串,并给出相应的断言结果;步骤7,如果断言结果为不合法,则 使用比如重新输入或其他方式处理,如果断言为合法,则可以继续执行之后 的步骤。
在上述的一种基于关键字的敏感词智能过滤方法中,步骤1中用户在后 台预先定义的敏感词一般写法,在本方法中所指的“一般写法”是指日常中 使用的名称写法,比如:“一二三”、“中国”,而非“壹二三”、“中國 ”这些写法,此处只需要使用日常书写的文字即可。本方法不局限于“一二 三”、“中国”过滤词,能根据需求增减敏感词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州米络科技有限公司,未经杭州米络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711369633.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:食品药品监管方法和装置
- 下一篇:一种评论内容过滤方法及系统