[发明专利]关键词过滤方法及装置在审
申请号: | 201910272751.1 | 申请日: | 2019-04-04 |
公开(公告)号: | CN110110069A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 项东东;吴峰;郭伟 | 申请(专利权)人: | 上海易点时空网络有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/31 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力 |
地址: | 200125 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词过滤 过滤 自动机 状态机 文本 关键词集合 目标关键词 调用 输出 失败 | ||
本发明实施例公开一种关键词过滤方法及装置,其中方法包括如下步骤:基于关键词集合训练一套自动机,根据自动机指示的有限状态机对待过滤文本进行关键词过滤,将过滤出的目标关键词输出至调用端。采用本发明,通过训练一套自动机,根据有限状态机确定过滤失败的节点,基于此节点顺序往后过滤,只需对文本进行一遍过滤即可得到想要的结果,可以提高关键词过滤的效率。
技术领域
本发明涉及互联网环境优化技术领域,尤其涉及一种关键词过滤方法及装置。
背景技术
各种论坛、社区等各种网络互动平台中,每日都会有大量的发帖、回复等文本内容上传。为了营造一个健康良好的网络环境,需要准确的过滤掉一些不适合在公众场合提及的敏感词。传统的关键词顾虑通常是采取遍历关键词,利用正则循环查找要被过滤的文本内容,这种方式要遍历N编要过滤的文本内容,效率低下。
发明内容
本发明实施例提供一种关键词过滤方法及装置,通过训练一套自动机,根据有限状态机确定过滤失败的节点,基于此节点顺序往后过滤,只需对文本进行一遍过滤即可得到想要的结果,可以提高关键词过滤的效率。
本发明实施例第一方面提供了一种关键词过滤方法,可包括:
基于关键词集合训练一套自动机;
根据自动机指示的有限状态机对待过滤文本进行关键词过滤;
将过滤出的目标关键词输出至调用端。
进一步的,在根据自动机指示的有限状态机对待过滤文本进行关键词过滤时,上述方法还包括:
将关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,第一关键词与待过滤词汇的第一个词节点相同,且在第一个词节点后具有最多的顺序分布一致的相同词节点;
确定第一关键词中与待过滤关键词中第一个不匹配的失败词节点;
在关键词集合中确定失败词节点指向的第二关键词,第二关键词中存在与失败词节点相同的词节点,且二者基于失败词节点具有最多的顺序分布一致的相同词节点。
进一步的,上述方法还包括:
当第二关键词与待过滤词汇的尾部词节点相同且分布顺序一致时,确定第二关键词为目标关键词。
进一步的,上述方法还包括:
若未匹配到目标关键词,返回文本良好提示信息。
进一步的,上述方法还包括:
将自动机存储之本地缓存。
本发明实施例第二方面提供了一种关键词过滤装置,可包括:
自动机训练模块,用于基于关键词集合训练一套自动机;
关键词过滤模块,用于根据自动机指示的有限状态机对待过滤文本进行关键词过滤;
结果输出模块,用于将过滤出的目标关键词输出至调用端。
进一步的,上述关键词过滤模块包括:
文本匹配单元,用于将关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,第一关键词与待过滤词汇的第一个词节点相同,且在第一个词节点后具有最多的顺序分布一致的相同词节点;
失败节点确定单元,用于确定第一关键词中与待过滤关键词中第一个不匹配的失败词节点;
节点指向确定单元,用于在关键词集合中确定失败词节点指向的第二关键词,第二关键词中存在与失败词节点相同的词节点,且二者基于失败词节点具有最多的顺序分布一致的相同词节点。
进一步的,上述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易点时空网络有限公司,未经上海易点时空网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910272751.1/2.html,转载请声明来源钻瓜专利网。