[发明专利]大规模关键词多模匹配方法、装置以及设备在审

专利信息
申请号: 201811441307.X 申请日: 2018-11-28
公开(公告)号: CN109558521A 公开(公告)日: 2019-04-02
发明(设计)人: 袁春峰;曲志峰;纪翀;楼方平 申请(专利权)人: 南京中孚信息技术有限公司
主分类号: G06F16/901 分类号: G06F16/901;G06F16/9032
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 李强
地址: 210000 江苏省南京市浦口区江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种大规模关键词多模匹配方法、装置以及设备,包括:根据预设状态机扫描待测文本,其中,预设状态机通过预设关键词集合生成;将待测文本的当前输入状态值与当前字节值合成第一字符串,利用完美哈希函数进行计算得到索引值,并通过哈希函数计算当前输入状态值以及当前字节值得到哈希值;通过判断哈希值与存储在以索引值为下标的数组中的预设哈希值的关系,进而得到记录的失败状态值以及输出状态值;将记录的失败状态值以及输出状态值分别与关键词进行对应,输出待测文本中的关键词,该方式通过运用完美哈希函数提高了关键词多模匹配的检索效率。
搜索关键词: 多模匹配 哈希函数 哈希 预设状态 文本 输出 预设 索引 关键词集合 检索效率 字符串 失败 数组 记录 存储 扫描 合成
【主权项】:
1.一种大规模关键词多模匹配方法,其特征在于,包括:根据预设状态机扫描待测文本,其中,所述预设状态机通过预设关键词集合生成;对所述待测文本中的当前输入状态值以及当前字节值执行以下步骤:将所述当前输入状态值以及所述当前字节值合成第一字符串,并基于所述第一字符串利用完美哈希函数进行计算,得到索引值;基于所述当前输入状态值以及所述当前字节值利用哈希函数进行计算,得到哈希值;判断所述哈希值与预设哈希值是否相等,其中,所述预设哈希值存储在以所述索引值为下标的数组中;如果所述哈希值与所述预设哈希值相等,获取与所述当前输入状态值以及所述当前字节值对应的失败状态值,并判断所述与所述当前输入状态值以及所述当前字节值对应的失败状态值是否为关键词的标识值;如果是,记录与所述当前输入状态值以及所述当前字节值对应的失败状态值;如果否,不记录与所述当前输入状态值以及所述当前字节值对应的失败状态值;获取与所述当前输入状态值以及所述当前字节值对应的输出状态值,并判断所述与所述当前输入状态值以及所述当前字节值对应的输出状态值是否为关键词的标识值;如果是,记录所述与所述当前输入状态值以及所述当前字节值对应的输出状态值;如果否,不记录所述与所述当前输入状态值以及所述当前字节值对应的输出状态值;将所述与所述当前输入状态值以及所述当前字节值对应的输出状态值更新为所述当前输入状态值,并将所述当前字节值的下一字节值更新为所述当前字节值;如果所述哈希值与所述预设哈希值不相等,获取与所述当前输入状态值以及所述当前字节值对应的失败状态值,并判断所述与所述当前输入状态值以及所述当前字节值对应的失败状态值是否为关键词的标识值;如果是,记录所述与所述当前输入状态值以及所述当前字节值对应的失败状态值;如果否,不记录所述与所述当前输入状态值以及所述当前字节值对应的失败状态值;将所述与所述当前输入状态值以及所述当前字节值对应的失败状态值更新为所述当前输入状态值,将所述当前字节值更新为所述当前字节值;将记录的失败状态值以及输出状态值分别与所述关键词进行对应,输出所述待测文本中的所述关键词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京中孚信息技术有限公司,未经南京中孚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811441307.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top