[发明专利]用于文本间匹配的方法有效
申请号: | 201711441800.7 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108304467B | 公开(公告)日: | 2021-08-10 |
发明(设计)人: | 王琪;何东杰;刘为怀;蒋丹妮;叶家炜;宋昊 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/33 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 王星;杨美灵 |
地址: | 200135 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文本 匹配 方法 | ||
1.一种用于文本间匹配的方法,包括如下各步骤:
a)、基于至少一个标识构建待匹配文本;
b)、基于感兴趣信息形成目标文本的集合;
c)、将所述待匹配文本按树结构进行解析;其中,所述树结构的根节点的每一个子节点对应于所述待匹配文本的至少一个字符;
d)、基于所述树结构来构建存储表;其中,所述存储表记录每个所述标识在所述树结构中所对应的至少一个节点,以及其中每个所述节点的节点位置以及节点状态;以及
e)、利用所述存储表与所述目标文本的集合进行多模式匹配,其中,其中,所述存储表包括:
每个所述节点对应的节点字符;
每个所述节点所在的数组位置;
每个所述节点的各子节点所在的数组位置;
每个所述节点的各兄弟节点所在的数组位置;
每个所述节点的输出状态;以及
每个所述节点的FAIL节点所在的数字位置。
2.根据权利要求1所述的方法,其特征在于,所述存储表基于二维数组结构来构建。
3.根据权利要求2所述的方法,其特征在于,所述步骤c)中:
基于Aho-Corasick算法将所述待匹配文本按树结构进行解析。
4.根据权利要求3所述的方法,其特征在于,所述树结构按如下方式来定义:
所述根节点的各直接子节点与各所述标识的首字符一一对应;
各所述标识对应的字符串分别定义为所述树结构的相应子树。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述标识为开源软件的许可证的键,所述感兴趣信息为所述开源软件所涉及的风险信息和/或不兼容信息。
6.一种确定开源软件的许可证是否存在风险或不兼容的方法,其包括:
利用如权利要求1-5中任一项所述的用于文本间匹配的方法来进行至少一个许可证的键与风险信息和/或不兼容信息之间的匹配。
7.根据权利要求6所述的方法,其特征在于,
所述方法还包括:
确定每个包含所述风险信息和/或不兼容信息的所述许可证的键在待匹配文本中的位置。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
确定各个包含所述风险信息和/或不兼容信息的所述许可证的键之间的共性。
9.一种文本间多模式匹配系统,包括:
待匹配文本构建单元,用于基于至少一个标识构建待匹配文本;
树结构形成单元,与所述待匹配文本构建单元耦合,用于将所述待匹配文本按树结构进行解析;其中,所述树结构的根节点的每一个子节点对应于所述待匹配文本的至少一个字符;
表存储单元,与所述树结构形成单元耦合,用于基于所述树结构来构建存储表;其中,所述存储表记录每个所述标识在所述树结构中所对应的至少一个节点,以及其中每个所述节点的节点位置以及节点状态;以及
多模式匹配单元,与所述表存储单元耦合,用于基于所述存储表与目标文本的集合进行多模式匹配,
其中,所述存储表包括:
每个所述节点对应的节点字符;
每个所述节点所在的数组位置;
每个所述节点的各子节点所在的数组位置;
每个所述节点的各兄弟节点所在的数组位置;
每个所述节点的输出状态;以及
每个所述节点的FAIL节点所在的数字位置。
10.如权利要求9所述的系统,其特征在于,所述系统按照分布式系统来部署。
11.一种控制器,其特征在于,所述控制器在执行储存于存储器中的可执行指令时,执行如权利要求1至5中任一项所述的方法的各个步骤。
12.一种计算机存储介质,其上存储有计算机可执行指令,其中,所述计算机可执行指令在由处理器执行时,实现如权利要求1至5中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711441800.7/1.html,转载请声明来源钻瓜专利网。