[发明专利]数据加工方法与装置在审
申请号: | 202010685506.6 | 申请日: | 2020-07-16 |
公开(公告)号: | CN111813769A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 荀志;唐智杰 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 林哲生 |
地址: | 310024 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 加工 方法 装置 | ||
本发明实施例提供数据加工方法与装置,以解决命名无意义且命名重复的问题。该方法包括:建立流式加工任务链;流式加工任务链包括至少两个加工组件,以及,至少两个加工组件的执行顺序;按照执行顺序调用至少两个加工组件;其中,被调用的加工组件至少用于执行如下操作:对输入表中的至少一个字段进行数据加工处理,生成相应的输出字段作为中间字段;至少一个字段中的任一字段为目标字段;为输出字段进行命名,得到输出字段的字段名;输出字段的字段名包括:被调用的加工组件的组件名信息以及随机码。其中,加入的组件名信息,可表征字段经过了何种加工组件的加工,使命名不再无意义,而随机码可使字段名减少重名的机率。
技术领域
本发明涉及大数据处理技术领域,特别涉及数据加工方法与装置。
背景技术
数据加工是提高大数据质量的必经之路。在清洗过程中数据中的字段一般会经过多个加工组件的处理,每个加工组件可能会生成不同的中间临时字段,这些中间字段命名不当会造成各种各样的问题。
例如,现有的清洗过程中,生成的中间字段名命名方式如下:原字段名后面加数字。举例来讲,假定原字段名为name,加工后字段名可为:name_01、name_02、clean_name_01。
上述命名方式存在以下不足:
1),命名无意义,阅读困难;
2),命名重复问题。有两种情况会出现命名重复:一是加工流中有两个组件对同一个原始字段进行加工(比如加工流中有并行的两个加工链),可能会产生两个同名的字段,出现冲突;二是原始表中若同时存在name与name_01,则对name进行加工时产生的name_01字段与原有字段名冲突。
发明内容
有鉴于此,本发明实施例提供数据加工方法与装置,以解决命名无意义且命名重复的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种数据加工方法,包括:
建立流式加工任务链;所述流式加工任务链包括至少两个加工组件,以及,所述至少两个加工组件的执行顺序;
按照所述执行顺序调用所述至少两个加工组件;
其中,被调用的加工组件至少用于执行如下操作:
对输入表中的至少一个字段进行数据加工处理,生成相应的输出字段作为中间字段;所述至少一个字段中的任一字段为目标字段;
为所述输出字段进行命名,得到所述输出字段的字段名;所述输出字段的字段名包括:所述被调用的加工组件的组件名信息以及随机码。
可选的,所述加工组件的配置信息包括:第一映射关系;所述第一映射关系包括:第一目标字段名与第二目标字段名之间的映射关系;所述第一目标字段名为所述目标字段的字段名;所述第二目标字段名为所述输出字段的字段名;所述第一映射关系在建立所述流式加工任务链时生成;所述为所述输出字段进行命名包括:根据所述第一映射关系,对所述输出字段进行命名,得到所述第二目标字段名;或者,所述为所述输出字段进行命名包括:基于所述第一目标字段名,对所述输出字段进行命名,得到所述第二目标字段名。
可选的,第n个被调用的加工组件的第二目标字段名通过如下方式确定:若所述第一目标字段名与所述第n个被调用的加工组件的组件名信息的长度和大于预设长度,进行缩短处理,以令得到的第二目标字段名的长度不大于所述预设长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010685506.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置