[发明专利]一种数据预处理通用流程方法及系统有效
申请号: | 201911268767.1 | 申请日: | 2019-12-11 |
公开(公告)号: | CN111177115B | 公开(公告)日: | 2023-07-28 |
发明(设计)人: | 王运春;杨晓勇;孟炎杰;石武军;王占果 | 申请(专利权)人: | 中电普信(北京)科技发展有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 预处理 通用 流程 方法 系统 | ||
本发明提供了一种数据预处理通用流程方法,包括:步骤1:定义数据结构到目标数据集合;步骤2:输入选择数据集合;步骤3:映射步骤2所输入的选择数据集合中的选择数据列,到步骤1所定义的目标数据集合中的目标数据列,获得相关的映射关系;步骤4:根据步骤3所获得的映射关系,确定目标数据集合中的每个目标数据列的计算方式;步骤5:根据步骤4所确定的计算方式,对选择数据列的数据进行粒度处理,并获得粒度处理后的选择数据。通过定义数据结构和相关映射,来提高处理流程的扩张性和灵活性。
技术领域
本发明涉及数据处理技术领域,特别涉及一种数据预处理通用流程方法及系统。
背景技术
目前原始仿真数据在进入分析系统之前的数据清洗和预处理工作主要由操作员手动进行处理,操作员使用的工具主要有excel、sql数据库、python脚本语言等,但这些方式都有各自的缺点,具体如下:
1.使用excel处理数据需要原始数据是excel格式或者是excel软件支持的格式,如果仿真系统将数据保存为其它格式,例如普通文本,数据库,等格式则excel无法处理,且excel需要操作员手动进行整个过程,效率较低,其处理流程无法保存,对结构相同但具体值不同的不同批次数据需要每次重复手工处理流程,造成大量的重复劳动;
2.利用sql数据库对原始数据进行处理时可以保存处理流程,但其处理的建立需要操作人员懂得sql语句,sql语句的编写和调试均需要专业人员才能完成,这种方式对操作人员的要求较高,不是特别通用,且只能处理数据库中的数据,对其它来源的则数据无能为力;
3.利用python等脚本语言进行数据处理时灵活性较高,其支持的格式很多,处理流程也能持久化,但同样需要懂得相应脚本的专业人员才能使用,对操作员的要求较高。
发明内容
本发明提供一种数据预处理通用流程方法,用以通过定义数据结构和相关映射,来提高处理流程的扩张性和灵活性。
本发明实施例提供一种数据预处理通用流程方法,包括:
步骤1:定义数据结构到目标数据集合;
步骤2:输入选择数据集合;
步骤3:映射所述步骤2所输入的选择数据集合中的选择数据列,到所述步骤1所定义的所述目标数据集合中的目标数据列,获得相关的映射关系;
步骤4:根据所述步骤3所获得的映射关系,确定所述目标数据集合中的每个所述目标数据列的计算方式;
步骤5:根据所述步骤4所确定的计算方式,对所述选择数据列的数据进行粒度处理,并获得粒度处理后的选择数据。
在一种可能实现的方式中,在执行完所述步骤5后,还包括:
步骤6:保存与所述数据处理通用流程相关的所述步骤1-5。
在一种可能实现的方式中,在执行所述步骤1之前,还包括:
步骤01:获取原始数据;
步骤02:对所述步骤01所获取的原始数据进行预设处理,获得目标数据集合。
在一种可能实现的方式中,在执行完所述步骤1之后,且未执行所述步骤2之前,还包括:
步骤21:选择预先输入的数据源中的数据列;
步骤22:将所述步骤21所选择的数据列进行组合处理,构成选择数据集合。
在一种可能实现的方式中,
所述选择数据集合中的选择数据列为输入数据;
所述目标数据集合中的目标数据列为输出数据。
在一种可能实现的方式中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电普信(北京)科技发展有限公司,未经中电普信(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911268767.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置