[发明专利]一种数据抽取方法及装置在审
申请号: | 202110087299.9 | 申请日: | 2021-01-22 |
公开(公告)号: | CN112835879A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 李佐奇;熊志强 | 申请(专利权)人: | 深圳市汉云科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 深圳市特讯知识产权代理事务所(普通合伙) 44653 | 代理人: | 黄彧 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 抽取 方法 装置 | ||
1.一种数据抽取方法,其特征在于,包括:
执行数据抽取任务,所述数据抽取任务包括在源表中抽取数据,并创建临时表,其中,所述临时表关联自定义数据清洗语句,所述源表执行查询语句,且将查询结果集写入所述临时表;
利用所述自定义数据清洗语句对写入了查询结果集的临时表进行数据清洗;
根据所抽取的数据的写入方式,将清洗后的临时表写入目标表。
2.如权利要求1所述的数据抽取方法,其特征在于,利用所述自定义数据清洗语句对写入了查询结果集的临时表进行数据清洗,包括:
在所述源表中抽取数据时,若未抽取到时间字段,则在对写入了查询结果集的临时表进行数据清洗时,在所述自定义数据清洗语句中写入第一标志字段,所述第一标志字段包括时间类型。
3.如权利要求1所述的数据抽取方法,其特征在于,利用所述自定义数据清洗语句对写入了查询结果集的临时表进行数据清洗,包括:
在所述源表中抽取数据时,若抽取到时间字段,则在所述自定义数据清洗语句中写入第二标志字段,所第二标志字段包括时间字段转换语句。
4.如权利要求3所述的数据抽取方法,其特征在于,在所述自定义数据清洗语句中编辑时间字段转换语句,包括:
保留所述时间字段中,预设长度的字符;
或者,
格式化所述时间字段,获得格式化字符串形式的时间。
5.如权利要求1至4任一项所述的数据抽取方法,其特征在于,根据所抽取的数据的写入方式,将清洗后的临时表写入目标表之后,包括:
对写入清洗后的临时表后的目标表进行二次清洗;
所述二次清洗包括清洗目标表中创建时间在预设日期以前的历史数据、清洗目标表中错误数据、日期越界的数据、数值不符合常识的数据中的至少一种。
6.如权利要求1所述的数据抽取方法,其特征在于,执行数据抽取任务时,在源表中抽取数据,并创建临时表之前,包括:
识别当前数据抽取任务类型;
所述数据抽取任务类型为全量抽取时,若使用强制抽取的方式抽取数据,则在强制抽取成功时,利用强制抽取的数据作为当前使用的源表,并创建所述临时表;
若未使用强制抽取方式抽取数据,则检测当前使用的源表是否更新,并在所述当前使用的源表更新时,创建所述临时表;
所述数据抽取任务类型为增量抽取时,清空失败的数据抽取历史,检测当前使用的源表是否更新,若所述当前使用的源表更新,则创建所述临时表;
或者,
利用数据抽取成功后所抽取的数据作为当前使用的源表,检测当前使用的源表是否更新,若所述当前使用的源表更新,则创建所述临时表,其中,所述数据抽取历史包括历史临时表及所述历史临时表中的数据。
7.如权利要求6所述的数据抽取方法,其特征在于,所述数据抽取任务类型为全量抽取时,检测当前使用的源表是否更新,包括:
所述当前使用的源表记录在同步信息离线表中;
从所述同步信息离线表获取时间上与所述当前使用的源表相邻的所述数据抽取任务记录,将其抽取开始时间记为第一参考时间戳;
获取所述当前使用的源表的更新时间,将所述更新时间记为第二参考时间戳;
若所述第一参考时间戳小于所述第二参考时间戳,则所述当前使用的源表更新;
若从所述同步信息离线表未获取到时间上与所述当前使用的源表相邻的所述数据抽取任务记录,则查询所述当前使用的源表的数据量,以及所述目标表的数据量,并且,所述当前使用的源表的数据量与所述目标表的数据量不相等,或者所述目标表的数据量为0时,所述当前使用的源表更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市汉云科技有限公司,未经深圳市汉云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110087299.9/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置