[发明专利]关键词过滤方法及装置在审
申请号: | 201910272751.1 | 申请日: | 2019-04-04 |
公开(公告)号: | CN110110069A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 项东东;吴峰;郭伟 | 申请(专利权)人: | 上海易点时空网络有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/31 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力 |
地址: | 200125 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词过滤 过滤 自动机 状态机 文本 关键词集合 目标关键词 调用 输出 失败 | ||
1.一种关键词过滤方法,其特征在于,包括:
基于关键词集合训练一套自动机;
根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤;
将过滤出的目标关键词输出至调用端。
2.根据权利要求1所述的方法,其特征在于,在根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤时,所述方法还包括:
将所述关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,所述第一关键词的第一个词节点与所述待过滤词汇的第一个词节点相同,且在所述第一个词节点后二者具有最多的顺序分布一致的相同词节点;
确定所述第一关键词中与所述待过滤关键词中第一个不匹配的失败词节点;
在所述关键词集合中确定所述失败词节点指向的第二关键词,所述第二关键词中存在与所述失败词节点相同的词节点,且二者基于所述失败词节点具有最多的顺序分布一致的相同词节点。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述第二关键词与所述待过滤词汇的尾部词节点相同且分布顺序一致时,确定所述第二关键词为所述目标关键词。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若未匹配到所述目标关键词,返回文本良好提示信息。
5.根据权利要求1所述的方法,所述方法还包括:
将所述自动机存储之本地缓存。
6.一种关键词过滤装置,其特征在于,包括:
自动机训练模块,用于基于关键词集合训练一套自动机;
关键词过滤模块,用于根据所述自动机指示的有限状态机对待过滤文本进行关键词过滤;
结果输出模块,用于将过滤出的目标关键词输出至调用端。
7.根据权利要求6所述的装置,其特征在于,所述关键词过滤模块包括:
文本匹配单元,用于将所述关键词集合中的第一关键词与待过滤文本中的待过滤词汇进行匹配,所述第一关键词的第一个词节点与所述待过滤词汇的第一个词节点相同,且在所述第一个词节点后具有最多的顺序分布一致的相同词节点;
失败节点确定单元,用于确定所述第一关键词中与所述待过滤关键词中第一个不匹配的失败词节点;
节点指向确定单元,用于在所述关键词集合中确定所述失败词节点指向的第二关键词,所述第二关键词中存在与所述失败词节点相同的词节点,且二者基于所述失败词节点具有最多的顺序分布一致的相同词节点。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
过滤结果确定模块,用于当所述第二关键词与所述待过滤词汇的尾部词节点相同且分布顺序一致时,确定所述第二关键词为所述目标关键词。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
提示信息输出模块,用于若未匹配到所述目标关键词,返回文本良好提示信息。
10.根据权利要求6所述的装置,所述装置还包括:
自动机存储模块,用于将所述自动机存储之本地缓存。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易点时空网络有限公司,未经上海易点时空网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910272751.1/1.html,转载请声明来源钻瓜专利网。