[发明专利]一种基于变异回溯算法的数据识别方法有效
申请号: | 201610562004.8 | 申请日: | 2016-07-18 |
公开(公告)号: | CN106202464B | 公开(公告)日: | 2019-12-17 |
发明(设计)人: | 程永新;宋辉;谢涛;谭林;冯先限 | 申请(专利权)人: | 上海轻维软件有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903 |
代理公司: | 31290 上海科律专利代理事务所(特殊普通合伙) | 代理人: | 袁亚军;金碎平 |
地址: | 200331 上海市普陀区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于变异回溯算法的数据识别方法,包括如下步骤:a)预选分词符对数据样例进行切割,并将切割后的分词作为最小的匹配单元;b)对切割后的分词选择不同的编码方式进行编码;c)根据每一个分词在数据样例中的出现顺序形成匹配路径,并构建匹配树;d)输入日志数据进行分词,获取每一分词存在的编码方式,通过回溯匹配树进行数据识别。本发明通过分词,编码,获取候选编码,再进行回溯的匹配,在回溯的匹配过程,同时根据编码的不同编码方式可以匹配多种规则;利用分词作为最小的匹配单元,识别速度快,易于添加新的规则,且不需要编写不同的格式正则表达式,就能识别各种无规则的数据。 | ||
搜索关键词: | 一种 基于 变异 回溯 算法 数据 识别 方法 | ||
【主权项】:
1.一种基于变异回溯算法的数据识别方法,其特征在于,包括如下步骤:/na)预选分词符对数据样例进行切割,并将切割后的分词作为最小的匹配单元;/nb)对切割后的分词选择不同的编码方式进行编码;/nc)根据每一个分词在数据样例中的出现顺序形成匹配路径,并构建匹配树;/nd)输入日志数据进行分词,获取每一分词存在的编码方式,通过回溯匹配树进行数据识别;/n所述步骤c)遍历每一个分词的编码方式,计算编码值,每一个分词的编码值及其编码方式对应一个节点编码,不同节点编码之间根据对应的分词关系确定父子节点,所有节点编码存储在节点编码库中并形成一棵树或者树中的一条分支,或者树中的一条路径;/n所述步骤d)将待识别的日志数据进行分词后,对每一分词按所有可选的编码方式分别进行编码,并在节点编码库查询每一次的编码结果,如果存在,那么该编码作为候选的编码,如果该编码不存在,那么使用下一种编码进行编码,直至获得每一个分词的所有候选的编码方式;/n所述步骤d)通过如下步骤回溯匹配树进行数据识别:/nd1)获取根节点编码值;/nd2)判断节点是否存在子节点,如果不存在子节点,则跳到步骤d4);/nd3)如果存在子节点,获取下一个编码值,查看该编码值是否可作为父子节点,如果存在,那么返回步骤d2),如果不是父子关系,则跳到步骤d5);/nd4)判断该节点是否可作为叶子节点,如果可以作为叶子节点,则该回溯匹配结束,返回匹配到的一条完整的路径,如果不可以,回溯到上一个节点;/nd5)如果节点编码方式是目标寻找,那么跳到步骤d6),如果节点编码方式是跳跃寻找则跳到步骤d7),如果节点编码方式为任意词,返回步骤d2);/nd6)遍历后面的所有词的字符串值,查看是否存在该目标,如果存在返回步骤d2),不存在则回溯到上一个节点;/nd7)遍历后面的所有编码,查看是否存在该编码,如果存在返回步骤d2),不存在则回溯到上一个节点。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海轻维软件有限公司,未经上海轻维软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610562004.8/,转载请声明来源钻瓜专利网。