[发明专利]基于双数组字典树的模板匹配方法及系统在审
申请号: | 202111586054.7 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114254082A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 陈晏鹏;夏华;崔盛雅 | 申请(专利权)人: | 浪潮软件科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F16/903 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
地址: | 250100 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双数 字典 模板 匹配 方法 系统 | ||
1.基于双数组字典树的模板匹配方法,其特征在于将每个模板作为一个字典项构建DAT树,基于DAT树的检索方法进行模板匹配,所述方法包括如下步骤:
将历史输入文本作为目标文本,对所述目标文本进行预处理,得到包括词和词性的输入序列;
基于词、词性和特殊字符设计模板,并配置模板匹配规则;
将设计的模板作为字典项构建DAT字典树,所述DAT字典树等同于一个自动机,状态为树节点的编号,边为字符,所述DAT字典树通过两个数组实现,分别为转移函数数组和验证数组,所述转移函数表示一个状态可以按字符c转移到另一个状态,所述验证数组用于验证转移的有效性;
对于待检测输入文本作为目标文本,对所述目标文本进行预处理,得到包括词和词性的输入序列作为代检索输入序列;
基于DAT字典树的检索规则以及模板匹配规则对所述待检索输入序列进行模板匹配。
2.根据权利要求1所述的基于双数组字典树的模板匹配方法,其特征在于通过NLP工具对目标文本进行预处理,包括进行分词和词性标注处理,得到包括词和词性的输入序列。
3.根据权利要求1所述的基于双数组字典树的模板匹配方法,其特征在于所述特殊字符为通配符和标记符,包括*和#;
所述模板匹配规则包括:当模板遇到*时,能够进行如下两种操作:跳过当前词,从下个词继续匹配;不跳过当前词,继续匹配;匹配完成后,输出所有的匹配模板以及匹配模板中模板元素和输入序列的映射;
所述模板元素为词、词性和特殊字符。
4.根据权利要求1所述的基于双数组字典树的模板匹配方法,其特征在于转移函数数组和验证数组满足如下转移方程:
base[r]+c=s
check[s]=r
其中,c为字符的整数编码值
转移函数g(r,c)=s表示状态r可以按字符c转移到状态s,check数组表示验证数组。
5.根据权利要求4所述的基于双数组字典树的模板匹配方法,其特征在于基于DAT字典树的检索规则对所述待检索输入序列进行模板匹配,包括如下步骤:
步骤1、对输入序列逐个字符代入转移方程中的c,进行状态转移并校验;
步骤2、校验成功则说明字符匹配成功,将步骤1计算得到的状态s赋值给r,并读取下一个字符代入c,执行步骤2,如果校验失败说明没有匹配模板,结束;
步骤3、所有字符均读取完毕,匹配成功,输出匹配的模板。
6.基于双数组字典树的模板匹配系统,其特征在于用于执行如权利要求1-5任一项所述的基于双数组字典树的模板匹配方法,所述系统包括:
预处理模块,所述预处理模块用于分别将历史输入文本和待检索文本作为目标文本进行预处理,得到包括词和词性的输入序列
模板设计模块,所述模板设计模块用于基于词、词性和特殊字符设计模板,并配置模板匹配规则;
字典树构建模块,所述字典树构建模块用于将设计的模板作为字典项构建DAT字典树,所述DAT字典树等同于一个自动机,状态为树节点的编号,边为字符,所述DAT字典树通过两个数组实现,分别为转移函数数组和验证数组,所述转移函数表示一个状态可以按字符c转移到另一个状态,所述验证数组用于验证转移的有效性;
模板匹配模块,所述模板匹配模块用于基于DAT字典树的检索规则以及模板匹配规则对所述待检索输入序列进行模板匹配。
7.根据权利要求6所述的基于双数组字典树的模板匹配系统,其特征在于所述预处理模块用于通过NLP工具对目标文本进行预处理,包括进行分词和词性标注处理,得到包括词和词性的输入序列。
8.根据权利要求6所述的基于双数组字典树的模板匹配系统,其特征在于述特殊字符为通配符和标记符,包括*和#;
所述模板匹配规则包括:当模板遇到*时,能够进行如下两种操作:跳过当前词,从下个词继续匹配;不跳过当前词,继续匹配;匹配完成后,输出所有的匹配模板以及匹配模板中模板元素和输入序列的映射;
所述模板元素为词、词性和特殊字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件科技有限公司,未经浪潮软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111586054.7/1.html,转载请声明来源钻瓜专利网。