[发明专利]一种非结构化数据处理方法及装置在审

专利信息
申请号: 201410466111.1 申请日: 2014-09-12
公开(公告)号: CN104239506A 公开(公告)日: 2014-12-24
发明(设计)人: 陈军;梁玫娟 申请(专利权)人: 北京优特捷信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京尚伦律师事务所 11477 代理人: 张俊国
地址: 100102 北京市朝阳区望*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结构 数据处理 方法 装置
【说明书】:

技术领域

发明涉及非结构化数据处理技术领域,尤其涉及一种非结构化数据处理方法及装置。

背景技术

在信息技术飞速发展的今天,人们在各种社会和经济活动中产生大量的数字信息,企业信息技术基础设施建设规模不断扩大,IT监控、运维系统也得到广泛运用,同时各种传感器、智能家电产生的数据,以及各种交易系统(证券交易系统、电子商务交易系统)产生的数据数量巨大,格式也不尽相同,很难得到利用。

非结构化数据是计算机或人生成的文本信息,其中的数据并不一定遵循标准的数据结构(如模式定义规范的行和列),不容易被计算机程序直接理解和利用。将非结构化数据转化为结构化数据后,可存入搜索引擎、SQL(Structured Query Language,结构化查询语言)、NoSQL(Not Only SQL,非关系型数据)等系统,做进一步分析。大部分商业智能(Business Intelligence)软件只能分析基于数据库的结构化数据。例如Oracle数据库通过运算符合并智能数据类型和优化数据结构,以分析和操作XML(Exteile Marku Laguage,扩展性标识语言)文档、多媒体内容、文本和地理空间信息等非结构化数据。

非结构化数据格式多样,通过“基于指针的”方法可以使用数据库对存储在文件中的文档、影像和媒体内容进行编目和引用。使用XML格式组织并保存半结构化数据将不同类别的信息保存在XML不同的节点中,但是查询效率比较低,需要借助XPATH(XML Path,XML路径语言)完成查询统计。另外,使用数据库存储非结构化数据的缺点是需要预先定义Schema,即数据库表的格式,定义好之后,比较难修改,导致灵活性比较差,无法适应目前各种非结构化数据。

其中,非结构化数据具有非结构化数据的特点,是一种非结构化数据,非结构化数据亦具有前述不便于查询统计、存储困难的问题。

发明内容

为克服相关技术中存在的问题,本发明实施例提供一种非结构化数据处理方法及装置,用以将非结构化数据转换为结构化数据。

根据本发明实施例的第一方面,提供一种非结构化数据处理方法,包括:

获取用于抽取非结构化数据中关键字段的解析规则;

利用所述解析规则,抽取非结构化数据中的关键字段;

将抽取的关键字段命名为预设参数,并将所述预设参数赋值为抽取的关键字段,生成结构化数据。

在一个实施例中,所述获取用于抽取非结构化数据中关键字段的解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则;

所述利用所述解析规则,抽取非结构化数据中的关键字段,包括:利用所述用户自定义解析规则抽取非结构化数据中的关键字段;当未查找到所述用户自定义解析规则、或者所述用户自定义解析规则与所述非结构化数据不匹配时,查找系统内置解析规则;利用所述系统内置解析规则抽取非结构化数据中的关键字段。

在一个实施例中,所述根据生成所述非结构化数据的应用程序信息,查找用户自定义解析规则,包括:根据生成所述非结构化数据的应用程序信息,查找预先为所述非结构化数据配置的用户自定义解析规则;

所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包括:利用所述预先为所述非结构化数据配置的用户自定义解析规则抽取非结构化数据中的关键字段。

在一个实施例中,所述利用所述用户自定义解析规则抽取非结构化数据中的关键字段,包括:

当所述用户自定义解析规则有多个时,依次使用每个用户自定义解析规则抽取非结构化数据中的关键字段。

在一个实施例中,所述利用所述系统内置解析规则抽取非结构化数据中的关键字段,包括:

当所述系统内置解析规则有多个时,依次使用每个系统内置解析规则抽取非结构化数据中的关键字段。

在一个实施例中,所述方法还包括:

判断所述结构化数据中的预设参数的值是否满足预设告警条件;

当所述结构化数据中的预设参数的值满足预设告警条件时,发出告警和/或阻断所述预设参数对应的操作。

在一个实施例中,所述方法还包括:

通过数据交换接口,从第三方数据库中查找与所述结构化数据匹配的数据,所述第三方数据库中的数据与所述结构化数据来源一致;或者,通过数据交换接口,导入第三方数据库中的数据,所述第三方数据库中的数据与所述结构化数据来源一致;在所述导入的数据中查找与所述结构化数据相匹配的数据;

对与所述结构化数据相匹配的数据进行可视化处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京优特捷信息技术有限公司,未经北京优特捷信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410466111.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top