[发明专利]一种覆盖复杂异构情况的数据抽取转换方法在审
申请号: | 201911419254.6 | 申请日: | 2019-12-31 |
公开(公告)号: | CN111309792A | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 刘太敏;张翠侠;杨博文;张永伟;段然;陈奡 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 王玮 |
地址: | 210007 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 覆盖 复杂 情况 数据 抽取 转换 方法 | ||
本发明公开了一种覆盖复杂异构情况的数据抽取转换方法。该方法首先通过调研异构数据转换过程中遇到的难点和问题,并将问题进行归纳总结,形成异构数据转换问题库。分别针对每一个问题提出解决方案,并将解决方案进行集合形成一套解决方法。本发明解决了异构数据转换时遇到的包括数据组织结构相异、存储形式相异、元数据相异以及附件迁移等情况在内的多种异构情况,提高了异构数据之间的转换效率。
技术领域
指本发明属于数据处理技术领域,特别是一种覆盖了复杂异构情况的数据抽取转换方法。
背景技术
数据抽取转换是在数据流动的过程中,从不同异构数据源流向统一的目标数据的数据处理流程。数据抽取转换是数据应用的基础,广泛应用于各行各业的大数据计算处理和数据挖掘分析的工作中,功能齐全且性能优异的数据抽取转换算法的需求越来越大,是能否高效进行数据应用的关键所在。
但是目前行业内中的数据抽取转换方法一方面没有考虑到复杂的异构情况,针对主从表表格拆分、文件迁移以及文件存储格式转换等相对复杂的情况没有相应的考虑,使得在面对这些情况时无法找到现有成果,需要耗费资源去对特定情况做定制开发;另一方面,部分工具不被转换方法及功能,但是覆盖不全面,难以一次性满足项目需要的多种复杂异构抽取转换情况。
发明内容
本发明的目的在于提供一种能够覆盖多种复杂异构数据转换情况的数据抽取转换方法,能够同时满足对多种转换方法的需求。
实现本发明目的的技术解决方案为:一种覆盖复杂异构情况的数据抽取转换方法,步骤如下:
第一步:整理转换前后的异构数据结构,标记出结构差异以及前后结构详细表与字段的组织对应关系。
第二步:查找前后数据结构中新增或者缺少的字段信息,按照需求,对这些字段进行保留、删除或者补充等操作。
第三步:比对前后异构数据中同义字段名,将同义不同名的对应字段进行标记和对应。
第四步:查看转换前是否具有文件存储情况,对于文件路径存储情况进行标记并选择迁移工具进行迁移。
第五步:查看前后异构数据中对文件格式的存储方式的异同,对存储方式发生改变的,进行标记并且选择相应的转换工具定义转换方法。
第六步:比对前后异构数据中的元数据异同,将元数据不同的字段进行标记和对应。
所述步骤1的具体实现方法如下:
步骤1-1、比对前后异构数据结构的表的组织关系,包括表的数据、表所描述的信息类型、主从表的表达形式;找出以上方面的异同,并按照异同情况将前后表结构按照表数量、主从表形式进行对应关系的标记;
步骤1-2、比对前后异构数据结构的字段对应关系,将相同的对应字段在软件中进行标记。
所述步骤2的具体实现方法如下:
步骤2-1、对比分析待转换数据结构中相比目标数据结构缺少的表信息和字段信息;
步骤2-2、对比分析待转换数据结构中相比目标数据结构富余的表信息和字段信息;
步骤2-3、获取转换需求,对缺少的表和字段进行计算补充或者放弃补充;
步骤2-4、获取转换需求,对富余的表和字段进行删除操作或者保留平移操作。
所述步骤3的具体实现方法如下:
步骤3-1、通过分析比对找出因字段名长短不一致而有所区别的同义字段名;
步骤3-2、通过分析比对找出因字段名命名习惯不同而有所区别的同义字段名;
步骤3-3、将所有同义不同名字段进行转换关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911419254.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置