[发明专利]一种多模式匹配方法、装置、电子设备和存储介质在审
申请号: | 202110693846.8 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113377917A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 任禾;刘升平;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模式 匹配 方法 装置 电子设备 存储 介质 | ||
本发明涉及一种多模式匹配方法、装置、电子设备和存储介质,该方法包括:获取待匹配文本;将待匹配文本符号化转化成符号序列;从字典树的根节点开始依次匹配所述符号序列中每个符号对应的子节点,在匹配过程中,根据符号序列中的每个符号类型确定匹配策略;依次匹配结束后得到匹配结果。本申请通过将待匹配文本符号化转化为符号序列,能够对正则表达式转化为符号序列,然后将符号序列在字典树上依次进行匹配,对不同的符号类型采取不同的匹配策略进行匹配,如区间节点、活动节点等类型的匹配策略,与正则语法完全一致,不仅匹配速度快,而且基于字典树的表达能力进行匹配,大大增强了模式的表达能力,减少了模式的维护成本。
技术领域
本发明涉及多模式匹配技术领域,具体涉及一种多模式匹配方法、装置、电子设备和存储介质。
背景技术
目前,多模式匹配是一项非常重要的基础工作,应用范围很广,可以应用在文本分词、文本匹配、对话系统等方向。多模式匹配是指对于给定的一个输入文本T,如:”ABCDEF”,同时提供一些字符串模式,如”ABC”,“CD”,“FG”,从这些模式中找到能匹配文本T的模式,如示例中可以看到”ABC”,“CD”都是匹配T的模式。当输入文本T很长,模式很多时,就需要有一定的方法去解决了。目前比较好解决方法有AC方法、Wu Manber方法等。
目前的多模式匹配算法,主要是优化效率,但不支持正则表达式。
发明内容
本发明提供一种多模式匹配方法、装置、电子设备和存储介质,能够解决上述多模式匹配中的技术问题。
本发明解决上述技术问题的技术方案如下:
第一方面,本发明实施例提供了一种多模式匹配方法,包括:
获取待匹配文本;
将待匹配文本符号化转化成符号序列;
从字典树的根节点开始依次匹配所述符号序列中每个符号对应的子节点,在匹配过程中,根据符号序列中的每个符号类型确定匹配策略;
从所述根节点到所述子节点的路径中得到匹配结果。
在一些实施例中,上述多模式匹配方法中,将待匹配文本符号化转化成符号序列,包括:
通过符号化工具对所述待匹配文本的字符表达进行字符切分,形成不同的符号类型;
符号序列中每个符号用第一分隔符隔开;
每个符号均包括两部分,第一部分是符号本身,第二部分是符号类型,所述第一部分和第二部分用第二分隔符隔开;
其中,符号类型包括:文字类型、数字类型、区间类型或者活动节点。
在一些实施例中,上述多模式匹配方法中,从字典树的根节点开始依次匹配符号序列中每个符号对应的子节点,包括:
从字典树的根节点开始匹配符号序列中第一个符号对应的子节点;
当匹配到第一个符号对应的子节点后,从子节点开始匹配符号序列中第二个符号的子节点;
依次匹配直到匹配完符号序列中最后一个符号对应的子节点后得到匹配结果。
在一些实施例中,上述多模式匹配方法中,根据符号序列中的每个符号类型确定匹配策略,包括:
当符号类型是活动节点时,如果当前字符和活动节点匹配成功,仍然在所述活动节点匹配下一个字符;
当符号类型是区间节点时,当前字符与区间节点中的每一个字符进行匹配。
当符号类型包括至少两种时,对当前字符进行转写或者保留,进行匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110693846.8/2.html,转载请声明来源钻瓜专利网。