[发明专利]一种从非结构化数据提取结构化数据的方法在审

申请号：	201710757615.2	申请日：	2017-08-29
公开（公告）号：	CN107577460A	公开（公告）日：	2018-01-12
发明（设计）人：	耐尔;屈朝晖	申请（专利权）人：	苏州优圣美智能系统有限公司
主分类号：	G06F8/34	分类号：	G06F8/34;G06F8/30;G06F8/38;G06F8/41;G06F17/30
代理公司：	北京远大卓悦知识产权代理事务所(普通合伙)11369	代理人：	韩飞
地址：	215000 江苏省苏州市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种结构数据提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及大数据领域的数据解析技术，更具体地说，本发明涉及一种从非结构化数据提取结构化数据的方法。

背景技术

运维数据不仅数量惊人，种类繁多，而且产出位置也各不相同，处理起来十分复杂，而我们往往需要在几秒钟内得到答案。我们需要有一种方法或方式能从海量数据中快递定位，找到问题，找到根因。同时，这些数量庞大的数据还包含了许多对企事业单位、各组织机构或个人都十分有价值的信息。我们需要有一种方法或方式把这些数据变成有意义、有价值的信息，从而产生影响。

运维数据包括结构化数据、半结构化数据和非结构化数据。非结构化数据由机器或者人类产生，人类产生的半结构化数据包括文本、声音、图片等形式的数据。半结构化数据主要来自系统日志、应用程序、服务器、中间件、网络设备、安全设备和数据库等。结构化数据来自数据库、监控系统、日志网络监控系统、系统监控等。数据通过代理器、SYSLOG、TCP、UDP、FTP、HTTP等方式从不同的位置采集。数据采集后被发至数据处理系统处理。在处理过程中就需要解析数据，并从中提取有效字段信息。数据解析和字段提取需要实时或近实时或在匹配模式(Pattern)下完成。

能够在生产环境中保存、存储、加载、编辑、输入、输出和部署一个数据结构的解析系统称为解析器。开发一种从非结构化数据提取结构化数据的方法的人称为开发人员。开发人员检查样本数据、理解样本数据的类型和字段，再开发解析器(Parser)，然后将解析器部署在实际生产环境中，数据会在实际生产环境中被数据分析体系解析和使用。具体地，开发人员的工作就是首先将样本数据中的数据记录归类，然后针对每一类的数据记录，从中提取字段，并给字段命名，将这些字段具体化为数值、字符串、IP地址等。为了成功创造出可以扫描样本数据，给样本数据归类，从样本数据中提取、输出字段的一种从非结构化数据提取结构化数据的方法，开发人员必须执行上述两步操作。传统的一种从非结构化数据提取结构化数据的方法采用三种方法来开发和部署解析器。1.使用高级编程语言开发解析器。2.传统方式需要编程人员编码正则表达式(RegEx)。3.传统开发方式是在如JSON或者XML的更加简单的脚本中开发解析器定义。在开发出这些解析器后，传统系统采用将解析器复制到文件的方式将其部署到生产系统中。

传统解析方法的主要缺点有：

1.开发人员需要熟练掌握模式匹配语言或者高水平编程语言；当要解析的数据量大，种类繁多时，使用这些语言很难维护，调试起来也很困难；2.开发人员需要检查样本数据，理解样本数据的记录类型和有意义的字段，根据个人对模式匹配语言或者高水平编程语言的掌握情况，开发出解析模式；3.开发人员不得不手动编写解析器。没有方便的图形化开发环境。没有可增编的交互性工具，开发人员需要在开发前将所有的设计熟练于心或者以文档形式呈现；4.开发人员在开发过程中没有快速方法检测解析器的正确性，而只能实际部署于生产中后才能发现解析器中的错误；5.因为缺少冲突处理工具，传统的解析系统中，手写的传统解析器是没有再次使用能力的；6.如果部署解析器时要做一些改变，就需要重新启动整个数据处理系统。

发明内容

针对上述技术中存在的不足之处，本发明提供一种从非结构化数据提取结构化数据的方法，解析操作基于图形化界面，操作灵活，无需面对编程文件，利于开发、更新与维护。

为了实现根据本发明的这些目的和其它优点，本发明通过以下技术方案实现：

本发明提供一种从非结构化数据提取结构化数据的方法，其包括以下步骤：

建立模式库，其包括基于正则表达式编写获得的若干个模式；

基于图像化操作，建立一个空的解析器；

获取待解析数据中的一部分作为样本数据，了解解析需求；

根据所述解析需求，调用至少一个所述模式，依次编辑分类规则和解析规则以对样本数据分类和解析，所述分类规则和所述解析规则存储至所述解析器；

显示所述解析规则解析的样本数据的字段值名；

在GUI上将解析器部署至实际使用环境，解析结果输出到数据分析的下一步骤。

建立所述解析器，包括以下步骤：

建立主解析树；