[发明专利]基于多源数据的数据处理方法及装置有效
申请号: | 201810805070.2 | 申请日: | 2018-07-20 |
公开(公告)号: | CN109063063B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 韩志平;郑其荣;艾永健;李鹏;李文杰;王德奎;赵海涛 | 申请(专利权)人: | 泰华智慧产业集团股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/21 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 邓建国 |
地址: | 250101 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 数据处理 方法 装置 | ||
1.一种基于多源数据的数据处理方法,其特征在于,包括:获取包括目标专题数据的所有数据源A1、A2、···An,得到数据源集合,其中,n为正整数,每个所述数据源包括若干条数据,每一条数据包括若干字段;对所述数据源集合中各所述数据源,按照完整度由大到小的顺序进行排序,其中,所述完整度包括所述数据源所包含的数据的量、数据的种类以及数据的准确度;将完整度最大的所述数据源作为优选数据源,其中,所述优选数据源中的所述目标专题数据为优选目标专题数据;将所述优选目标专题数据以及所述优选目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库;将所述数据源集合中除所述优选数据源之外的其他数据源中的目标专题数据分别与所述优选目标专题数据进行比较,得到补充数据源和新增数据源,其中,所述补充数据源中的所述目标专题数据为补充目标专题数据,所述新增数据源中的所述目标专题数据为新增目标专题数据,所述补充目标专题数据与所述优选目标专题数据部分重合,所述优选目标专题数据不与所述新增目标专题数据重合;将所述补充目标专题数据以及所述补充目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据,以及对应的数据来源、数据编号和生成日期;将所述新增目标专题数据以及所述新增目标专题数据的数据来源、数据编号以及生成日期作为原始数据输入到中间库中;筛选所述中间库中的原始数据中存在的问题数据,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中,同时将所述问题数据输入到问题库中;将所述预处理数据删除历史数据之后作为最终数据输入过程库中;根据所述最终数据的每一个字段的来源和生成日期建立数据来源追溯表,并将所述数据来源追溯表保存在数据来源追溯库中;在对所述最终数据进行变更时,通过所述最终数据中每一个字段的变更时间、每一个字段变更的原值、每一个字段变更的现值、每一个字段原值的数据来源、每一个字段原值的生成日期建立数据变更追溯表,并将所述数据变更追溯表保存在数据变更追溯库中;将所述过程库中的所有所述最终数据定期发送到结果库中。
2.根据权利要求1所述的基于多源数据的数据处理方法,其特征在于,所述删除所述中间库中的与所述优选目标专题数据相同的补充目标专题数据包括:通过KETTLE工具中的去重组件,将所述中间库中与所述优选目标专题数据相同的补充目标专题数据删除。
3.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的值映射组件将所述中间库中的所有所述原始数据的不同格式统一映射为同一种格式的数据。
4.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的字符串替换组件将所述中间库中的所有所述原始数据中不能识别的字符串替换为可识别的字符串。
5.根据权利要求2所述的基于多源数据的数据处理方法,其特征在于,将所述中间库中去除所述问题数据的原始数据作为预处理数据输入到业务库中之前,所述方法还包括:通过KETTLE工具中的字段值替换组件将所述中间库中的所有所述原始数据中的不同格式的字段值替换为同一种格式的字段值。
6.根据权利要求1所述的基于多源数据的数据处理方法,其特征在于,所述方法还包括:对于所述中间库中的所有所述原始数据,对于多条所述原始数据中包含的同一个实体的原始数据设置相同的编码,所述编码为唯一的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰华智慧产业集团股份有限公司,未经泰华智慧产业集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810805070.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置