[发明专利]批量数据清洗的方法及装置、计算机设备和存储介质有效
申请号: | 201911171340.X | 申请日: | 2019-11-26 |
公开(公告)号: | CN111026739B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 王海波;张扬 | 申请(专利权)人: | 智器云南京信息科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 杨用玲 |
地址: | 210022 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 批量 数据 清洗 方法 装置 计算机 设备 存储 介质 | ||
本发明提供了一种批量数据清洗方法,包括:从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。从而对海量数据进行灵活的清洗方式配置,提高用户的体验。
技术领域
本发明涉及人工智能技术领域,尤指一种批量数据清洗的方法及装置、计算机设备和存储介质。
背景技术
现今计算机技术发展迅速,尤其随着互联网应用场景的不断壮大以及存储技术的不断突破,使得这些应用场景积累了海量的数据。在数据量较少的时候,人工进行分析可以达到数据分析的目的,但是数据量的情况下,能够提供的信息、信息发现对后续应用能做的贡献也有限。然而,现如今资讯爆炸的背景下,数据量已经不是数据挖掘分析的主要问题,面对如此海量的数据,分析人员如何才能有效的对数据进行分析,尽可能多的发觉数据中的价值,是我们亟待解决的问题。
如何对海量数据进行分析和挖掘,第一步要做的就是要对来自不同应用系统、不同应用平台、不同结构的数据进行清洗。让这些来自不同数据源的数据能够在业务上、格式上统一起来,从而为后续的分析垫底坚实基础。
现有技术中,数据清洗的方式有很多,例如可以使用类似python,c++,java等编程语言,对需要清洗的数据文件进行清洗。但是这些清洗方式需要分析人员熟练地掌握一门变成语言,并且前期的编码调试过程较长,这就大大提高了数据清洗的技术门槛。当然也有分析人员使用excel进行数据清洗,但excel的界面功能比较有限,高级的功能还是要通过编写VB来实现。同时,也有使用市面上的一些数据清洗工具,然而,虽然如今市面上的清洗工具有不少,但是它们大多数功能复杂而且清洗方式不够灵活,学习成本较高还没有很好的效果。
发明内容
本发明实施例的目的是提供一种批量数据清洗的方法及装置、计算机设备和存储介质,用以解决现有技术中海量数据清洗门槛高不易实现,或者清洗方式不够灵活的问题。
为解决上述问题,第一方面,本发明实施例提供了一种批量数据清洗的方法,所述方法包括:
从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
优选地,所述方法还包括:
对分组后的分组数据修改文件标题头或数据分隔符,修改的数据文件根据标题或数据分隔符进行重新分组。
优选地,所述方法还包括:
为属于同一个分组的所述分组数据配置相同的数据模板或数据清洗方式。
优选地,所述配置清洗方式具体包括:
选择需要清洗的数据列,并为所述数据列选择一个清洗方式,将所述数据列和所述清洗方式发送至同一方式编辑区域。
优选地,所述配置清洗方式还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于智器云南京信息科技有限公司,未经智器云南京信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911171340.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置