[发明专利]一种状态爆炸型正则表达式的识别方法及系统在审
申请号: | 202110784458.0 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113627164A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 卢毓海;王晓琳;张春燕;刘燕兵;谭建龙;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 状态 爆炸 正则 表达式 识别 方法 系统 | ||
本发明公开了一种状态爆炸型正则表达式的识别方法及系统。本方法为:1)对于一待识别的正则表达式,生成其对应的NFA图,得到该正则表达式对应的NFA图集合;2)对于NFA图集合中的每一NFA图,提取该NFA图中的所有根子图并将其输入graph2vec模型,训练得到该NFA图的嵌入表示;3)利用分类模型处理该NFA图的嵌入化表示,判定该正则表达式是否为状态爆炸型正则表达式。该方法可高效快速的批量处理正则表达式,满足在线系统的高效处理性能与较低空间消耗的需求。
技术领域
本发明涉及一种状态爆炸型正则表达式的识别方法及系统,属于计算机软件技术领域。
背景技术
正则表达式匹配是网络过滤等许多应用程序中的关键组件,例如在深度包检测(DPI)中,它可以增强网络通信的安全性并检测恶意流量的存在。完成正则表达式匹配时,首先应将正则表达式转换为有限自动机(FA)。有限自动机是一种状态机,其识别的语言和由正则表达式表示的语言相同,根据下一状态转移是否确定,可以将FA分为非确定性有限自动机(NFA)和确定性有限自动机(DFA)。NFA和DFA的表达能力相当,但是由于每个DFA状态都等同于相应的NFA状态集,因此从NFA到DFA的转换可能会导致状态数激增,称这一现象为状态爆炸。表1描述了NFA和DFA在不同的编译策略下,其空间复杂度与匹配的时间复杂度对比结果。
表1为NFA和DFA在不同的编译策略下,空间复杂度与匹配的时间复杂度对比
1、DFA以其高效的匹配性能而广泛应用于DPI应用中,但是DFA的状态爆炸为DFA的实际应用带来了极大的挑战。现有关于识别正则表达式是否会生成状态爆炸的DFA问题的技术方法是以简单的设置阈值的方式来判断DFA状态数是否过大,超过该阈值则判定其是状态爆炸型正则表达式,否则不是。具体来说是在由正则表达式生成DFA的过程中设置阈值,即首先将正则表达式解析为解析树,然后使用Thompson构造方法或Glushkov构造方法将其转换为NFA,最后使用子集构造法将其转换为DFA,如果生成的DFA状态数超过该阈值,则该DFA判定为状态爆炸,其对应的正则表达式为正则爆炸型;否则为非状态爆炸型。
现有的技术方案主要是通过设置阈值的方式来判别状态爆炸型正则表达式,该技术的缺点如下:
1、可执行度低:判断一条正则表达式是否为状态爆炸型,需执行完整的由正则表达式生成DFA的过程,操作复杂,算法处理该过程缓慢,不易执行。
2、空间复杂度高:如果该正则表达式是状态爆炸型,则在由NFA生成DFA的过程中会产生大量的DFA状态,需要大量的缓存空间来记录这些状态,空间复杂度极高。
3、不能识别状态爆炸型的特定结构:存在一部分正则表达式,其对应的DFA状态数未达到阈值,因而该技术不能识别它们为状态爆炸型的正则表达式,但是它们含有特定的状态爆炸型结构,理应划分为状态爆炸型。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种状态爆炸型正则表达式的识别方法,该方法可高效快速的批量处理正则表达式,满足在线系统的高效处理性能与较低空间消耗的需求。本发明的主要思想是利用图神经网络(GNN)的模型来自动学习NFA图(正则表达式利用Thompson构造法生成得到)的结构特征,将高维的图表示嵌入到低维的向量空间中,然后利用分类模型把这些向量化表示的图进行二分类:是否为状态爆炸型的正则表达式对应的NFA,下面是该技术方案的详细阐述。
本发明的技术方案为:
一种状态爆炸型正则表达式的识别方法,其步骤包括:
1)对于一待识别的正则表达式,生成其对应的NFA图,得到该正则表达式对应的NFA图集合;
2)对于NFA图集合中的每一NFA图,提取该NFA图中的所有根子图并将其输入graph2vec模型,训练得到该NFA图的嵌入表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110784458.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种热熔焊接装置
- 下一篇:一种诱导蛋白质降解的多肽及其应用