[发明专利]一种非法词判定方法和非法词判定装置无效
申请号: | 200910110288.7 | 申请日: | 2009-10-30 |
公开(公告)号: | CN101697153A | 公开(公告)日: | 2010-04-21 |
发明(设计)人: | 王有为;刘克鸿;刘飞;杨旗;杨丰;马慧;蒋铮 | 申请(专利权)人: | 卓望数码技术(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 44217 | 代理人: | 李琴 |
地址: | 518057 广东省深圳市南山区高*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 非法 判定 方法 装置 | ||
技术领域
本发明涉及关键词过滤技术,更具体地说,涉及一种非法词判定方法和非法词判定装置。
背景技术
从手工检索到互联网搜索引擎,计算机网络的发展为检索方式带来了革命性的变化。无论是Google公司的股票市值还是微软Vista操作系统中无处不在的搜索栏,都无不说明,搜索时代正向我们走来。
作为互联网搜索引擎的一个重要部分,搜索数据库中存储了大量的数据记录,这其中既包括文字信息,也包括语音信息、视频信息等多媒体信息,借助高效的搜索算法和遍及全球的互联网络,互联网搜索引擎正在发展成为人类历史上最大的百科全书。
在带给人们极大方便的同时,互联网搜索引擎的搜索数据库中也存储了大量的不良信息,例如色情、暴力等信息。对于此类信息,现有技术采用关键词过滤的方式阻止此类信息被用户搜索到。而现有关键词过滤技术基本采用笨拙的字符串匹配方式来进行,这种方式效率较低,面对每日数千万次的搜索请求时常显得力不从心。
因此,需要一种关键词过滤方案,能够有效克服现有关键词过滤方法执行效率较低的缺陷。
发明内容
本发明要解决的技术问题在于,针对现有关键词过滤方法执行效率较低的缺陷,提供一种非法词判定方法和非法词判定装置。
本发明解决其技术问题所采用的技术方案是:
构造一种非法词判定方法,用于确定输入的关键词是否非法,包括基于非法词列表对所述关键词进行分词操作,并基于分词操作的结果确定该关键词是否非法。
在本发明提供的非法词判定方法中,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词可分割,则确定该关键词合法。
在本发明提供的非法词判定方法中,所述依据分词操作的结果确定该关键词是否非法进一步包括,若依据分词操作的结果判定该关键词不可分割,则确定该关键词非法。
在本发明提供的非法词判定方法中,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
本发明还提供了一种非法词判定装置,用于确定输入的关键词是否非法,包括:
分词模块,用于基于非法词列表对所述关键词进行分词操作;
判断模块,与分词模块通信连接,用于基于分词操作的结果确定该关键词是否非法。
在本发明提供的非法词判定装置中,所述判断模块用于在依据分词操作的结果判定该关键词可分割时确定该关键词合法。
在本发明提供的非法词判定装置中,所述判断模块用于在依据分词操作的结果判定该关键词不可分割时确定该关键词非法。
在本发明提供的非法词判定装置中,所述分词操作为下列分词操作之中的至少一种:
基于字符串匹配的分词操作;
基于理解的分词操作;
基于统计的分词操作。
实施本发明的技术方案,具有以下有益效果:本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时,说明该关键词非法。当关键词的分割结果显示该关键词可分割时,说明该关键词合法。凭借分词算法执行效率高的特点,本发明提供的技术方案可极大提高关键词过滤的效率。此外,本发明提供的技术方案原理简单,易于实现。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是依据本发明一较佳实施例的非法词判定方法的流程图;
图2是依据本发明一较佳实施例的非法词判定装置的逻辑结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供的非法词判定方法和非法词判定装置通过对关键词进行分词操作来对关键词进行过滤。当关键词的分割结果显示该关键词不可分割时,说明该关键词非法。当关键词的分割结果显示该关键词可分割时,说明该关键词合法。凭借分词算法执行效率高的特点,本发明提供的技术方案可极大提高关键词过滤的效率。此外,本发明提供的技术方案原理简单,易于实现。
图1是依据本发明一较佳实施例的非法词判定方法100的流程图。本发明提供的非法词判定方法100用于确定输入的关键词是否非法,如图1所示,方法100开始于步骤102。
随后,在下一步骤104,接收输入的关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卓望数码技术(深圳)有限公司,未经卓望数码技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910110288.7/2.html,转载请声明来源钻瓜专利网。