[发明专利]快速特征码扫描在审
申请号: | 201711339378.4 | 申请日: | 2008-10-20 |
公开(公告)号: | CN108197470A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 王强 | 申请(专利权)人: | 王英 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;H04L29/06;G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 王维绮 |
地址: | 200434 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征码 字符串 字段 指纹 扫描 定长 子码 数据结构 查找 快速特征 任何位置 扫描步长 扫描操作 扫描特征 匹配 输出 | ||
在字符串字段上扫描特征码的方法和系统。在一个实施例中,本发明提供了一种特征码扫描方法。所述方法包括把一个或多个特征码处理成一个或多个格式,所述格式包括每个定长特征码或特征子码的一个或多个指纹和一个或多个后续查找数据结构,从而使得每个定长特征码或特征子码的指纹的数目等于特征码扫描操作的步长,并且使得所述特定定长特征码或特征子码在任何被扫描的字符串字段中的任何位置上都能被识别,接收特定字符串字段,识别所述特定字符串字段所包括的任何特征码,包括在每个以扫描步长为间距的位置上扫描所述指纹,和在有一个或多个匹配的指纹的位置上查找所述后续查找数据结构,和输出任何已识别的特征码。
技术领域
本发明涉及扫描字符串字段中的特征码。
背景技术
数字内容的物件(如文件,程序,网页,电子邮件,互联网数据包,或数字图像)可以包含一个或多个字符串字段。一个字符串字段是一个通常代表文字或可执行代码的数据值串。例如,一个互联网数据包可以包含网址,主机名,超文本传输协定(HTTP)报头,超文本传输协定报文,电子邮件附件,电子邮件标题和电子邮件内容。一个字符串字段的大小可从几个字节到数百万以上个字节。一个字符串特征码可以是一串特定的完全指明的数据值或是特定的数据值的表达式(如特定的正则表达式),其目的是用来识别一个字符串物件(如特定的计算机病毒或特定的基因序列)。特征码可以被存储在一个征码数据库中。一个字征码数据库可以包含多个特征码。一个字符串特征码的大小可从几个字节到几千个字节。
字符串特征码和字符串字段都是包含很多基本单元的比特字符串。一个基本单元是最小的有语义的单位,因此通常在特征码扫描技术中作为扫描单元。一个基本单元的大小由应用而定。例如,英文字符串的基本单位通常是8比特位(即一个字节),而一个电脑病毒特征码的基本单位通常是一个字节或半个字节。
每一个特征码的基本单元可以被指定为等于或不等于某个特定值,或在某个特定范围内(如在数字范围0至9内或英文字母范围a至z内)。每个基本单元可以为不区分大小写或区分大小写。每个基本单元可以支持简单的逻辑运算(如“非”)。此外,每个特征码可以包括通配符,例如,“*”(一个不定长通配符)或“?”(一个定长通配符),其中“*”表示零个或任意多个任意基本单元和“?”表示一个任意基本单元。对于每一个不定长特征码符号,可进一步指明其任意长度范围。当一个特征码包括不定长字符,特征码的长度不定。如果一个特征码不包括不定长字符,其长度是固定的。
一个典型的特征码扫描过程可包括在一字符串字段内的所有可能的位置上,比较所述字符串字段和特征码数据库中所对应的特征码。扫描速度通常被特征码的大小和复杂性限制。此外,扫描速度还受特征码逐个更新的能力限制。
发明内容
本发明实施例提供了在字符串字段上扫描特征码的方法和系统。一般来说,本发明一个方面的实施例提供了字符串特征码扫描方法,所述方法包括把一个或多个特征码处理成一个或多个格式,所述格式包括每个定长特征码或不定长特征码的每个定长特征子码的一个或多个指纹和一个或多个后续查找数据结构,所述一个或多个指纹包括特定定长特征码或特征子码的第J个指纹,所述第J个指纹的第一基本单元在所述特定定长特征码或特征子码中的在扫描方向上的位置除以特征码扫描操作的步长的余数等于J,从而使得所述指纹的数目等于特征码扫描的步长,并且使得所述特定定长特征码或特征子码在任何被扫描的字符串字段中的任何位置上都能被识别,其中每个所述指纹包括特定定长特征码或特征子码的一个或多个片段,所述一个或多个片段具有在所述特定定长特征码或特征子码中的任何地方的特定位置,接收一个由数据值组成的特定字符串字段,识别所述特定字符串字段所包括的任何特征码,包括在每个以扫描步长为间距的位置上,扫描所述特定字符串字段,以查找一个或多个特征码的一个或多个所述指纹,和在有一个或多个匹配的所述指纹的位置上,查找所述特定字符串字段,以查找一个或多个后续查找数据结构,和输出所述特定字符串字段中的任何已识别的特征码。本发明的所述方面的其它实施例包括所述方法所对应的系统,装置,和计算机软件产品。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于王英,未经王英许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711339378.4/2.html,转载请声明来源钻瓜专利网。