[发明专利]基于双数组字典树的模板匹配方法及系统在审
申请号: | 202111586054.7 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114254082A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 陈晏鹏;夏华;崔盛雅 | 申请(专利权)人: | 浪潮软件科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31;G06F16/903 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 潘悦梅 |
地址: | 250100 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双数 字典 模板 匹配 方法 系统 | ||
本发明公开了基于双数组字典树的模板匹配方法及系统,属于模板匹配技术领域,要解决的技术问题为如何基于双数组Trie树实现大量模板的快速匹配。包括如下步骤:将历史输入文本作为目标文本,进行预处理,得到包括词和词性的输入序列;基于词、词性和特殊字符设计模板,并配置模板匹配规则;将设计的模板作为字典项构建DAT字典树,所述DAT字典树通过两个数组实现,分别为转移函数数组和验证数组;对于待检测输入文本作为目标文本,对进行预处理,得到包括词和词性的输入序列作为代检索输入序列;基于DAT字典树的检索规则以及模板匹配规则对所述待检索输入序列进行模板匹配。
技术领域
本发明涉及模板匹配技术领域,具体地说是基于双数组字典树的模板匹配方法及系统。
背景技术
随着计算机技术的不断发展和信息化程度的不断提高,社会进入了万物互联、智能化的时代。模板匹配是一种常见的方法,在众多领域有着广泛的应用,其可以用于知识抽取、搜索意图识别、聊天机器人等技术领域,对大量的模板进行高效快速的匹配可以有效提高这些技术的性能和准确性,对于智能化技术的进步有较大的意义。双数组Trie树(DoubleArray Tree DAT)是一种Trie字典树的高效实现,具有高效率、节省空间的特点,可以用于字符串的快速检索。
如何基于双数组Trie树实现大量模板的快速匹配,并提高性能,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于双数组字典树的模板匹配方法及系统,来解决如何基于双数组Trie树实现大量模板的快速匹配,并提高性能的技术问题。
第一方面,本发明的基于双数组字典树的模板匹配方法,将每个模板作为一个字典项构建DAT树,基于DAT树的检索方法进行模板匹配,所述方法包括如下步骤:
将历史输入文本作为目标文本,对所述目标文本进行预处理,得到包括词和词性的输入序列;
基于词、词性和特殊字符设计模板,并配置模板匹配规则;
将设计的模板作为字典项构建DAT字典树,所述DAT字典树等同于一个自动机,状态为树节点的编号,边为字符,所述DAT字典树通过两个数组实现,分别为转移函数数组和验证数组,所述转移函数表示一个状态可以按字符c转移到另一个状态,所述验证数组用于验证转移的有效性;
对于待检测输入文本作为目标文本,对所述目标文本进行预处理,得到包括词和词性的输入序列作为代检索输入序列;
基于DAT字典树的检索规则以及模板匹配规则对所述待检索输入序列进行模板匹配。
作为优选,通过NLP工具对目标文本进行预处理,包括进行分词和词性标注处理,得到包括词和词性的输入序列。
作为优选,所述特殊字符为通配符和标记符,包括*和#;
所述模板匹配规则包括:当模板遇到*时,能够进行如下两种操作:跳过当前词,从下个词继续匹配;不跳过当前词,继续匹配;匹配完成后,输出所有的匹配模板以及匹配模板中模板元素和输入序列的映射;
所述模板元素为词、词性和特殊字符。
作为优选,转移函数数组和验证数组满足如下转移方程:
base[r]+c=s
check[s]=r
其中,c为字符的整数编码值
转移函数g(r,c)=s表示状态r可以按字符c转移到状态s,check数组表示验证数组。
作为优选,基于DAT字典树的检索规则对所述待检索输入序列进行模板匹配,包括如下步骤:
步骤1、对输入序列逐个字符代入转移方程中的c,进行状态转移并校验;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件科技有限公司,未经浪潮软件科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111586054.7/2.html,转载请声明来源钻瓜专利网。