[发明专利]字符序列匹配方法、实现匹配的预处理方法和装置有效

专利信息
申请号: 201810193518.X 申请日: 2018-03-09
公开(公告)号: CN110245330B 公开(公告)日: 2023-07-07
发明(设计)人: 赵子云;屈亚鑫;崔精兵;于涛;张森炜;张洁烽;王炳堪;张友旭;任光辉;郭长宇 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/126 分类号: G06F40/126;G06F40/14
代理公司: 深圳市联鼎知识产权代理有限公司 44232 代理人: 刘抗美;叶虹
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 字符 序列 匹配 方法 实现 预处理 装置
【说明书】:

发明揭示了一种字符序列匹配方法、实现字符序列匹配的预处理方法和装置、机器设备。所述方法包括:从字符序列获得对应于各字符位置的子序列;在字典树根据子序列所包含字符以及所对应字符位置,查找子序列,以判定字典树中存在字符序列匹配的样本字符序列。由于通过字典树进行存储,能够减少空间,所实现且用于进行字符序列中子序列查找的字典树,是实现字符序列中子序列的查找的,因此,对于字典树而言,是利用同一字符位置所存在的相同字符来进行的字典树中的存储,直接且有效的减少了所需要耗费的空间,在所执行的字符序列匹配中,字典树由于已经获得了存储所需要占用空间的减少,因此能够快速一次性加载至内存中,将极大提升匹配速度。

技术领域

本发明涉及计算机应用技术领域,特别涉及一种字符序列匹配方法、实现字符序列匹配的预处理方法和装置、机器设备。

背景技术

随着计算机应用技术的发展,越来越多的进行着字符序列的提取,并随之进行着此字符序列的匹配,以此来获得一定的字符序列匹配结果。字符序列通过所包含的字符携带着特定内容,以此来进行特定内容所对应落地场景的识别,故字符序列的存在是与落地场景强相关的。

但无论何种落地场景的存在,都需要进行若干字符所形成字符序列的匹配。例如,一特征识别中,此字符序列即为特征的存在形式,由此,所进行的特征识别便是字符序列的匹配实现。

进一步举例说明的,在通过病毒库对可疑文件进行病毒的识别中,对于病毒库,是通过从样本,即病毒文件中提取特征进行存储而实现的。然而,在存储过程中会造成病毒库过大,从而在可疑文件的病毒识别中无法一次性加载进入内存。例如,常见的特征,一种特征需要32个字节进行存储,如果需要存储1亿条,则大约需要2.98GB的空间存储,此存储在硬盘上易于实现,但是在识别匹配的实现中,存在着难以将2.98GB的病毒库加载进入内存的困难,进而随之导致匹配速度低下。

由此可知,在实际所进行字符序列匹配的各种应用中,存在着由于样本,即样本字符序列的存储耗费巨大空间,难以将所有样本字符序列载入内存,进而匹配速度低下的局限性。

发明内容

为了解决相关技术中存在的样本字符序列的存在需耗费巨大空间,难以将所有样本字符序列载入内存,进而匹配速度低下的技术问题,本发明提供了一种字符序列匹配方法、实现字符序列匹配的预处理方法和装置、机器设备。

一种字符序列匹配方法,所述方法包括:

获取给定的字符序列;

以所述字符序列中的每一字符位置为起始提取所述字符位置对应的子序列;

在字典树根据所述子序列所包含字符以及所对应字符位置,查找各字符位置所对应子序列,所述字典树通过样本字符序列中样本子序列以及所对应样本字符位置构建;

如果所有字符位置所对应子序列都能够在所述字典树通过所包含字符和所对应字符位置匹配查找得到,则判定所述字典树中存在所述字符序列匹配的样本字符序列。

一种实现字符序列匹配的预处理方法,所述方法包括:

批量获取样本字符序列;

进行所述样本字符序列中的字符提取,在所述样本字符序列中拆分获得样本子序列以及所述样本子序列对应的样本字符位置;

将所述样本子序列中的字符按照所对应样本字符位置,在一节点路径上载入字典树中深度对应于所述样本字符位置的分支节点;

按照所述样本子序列对应的样本字符位置更新所述节点路径上的叶子节点。

一种字符序列匹配装置,所述装置包括:

字符序列获取模块,用于获取给定的字符序列;

子序列获取模块,用于以所述字符序列中的每一字符位置为起始提取所述字符位置对应的子序列;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810193518.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top