[发明专利]一种数据处理方法、装置、设备和存储介质在审
申请号: | 201910846331.X | 申请日: | 2019-09-09 |
公开(公告)号: | CN110716928A | 公开(公告)日: | 2020-01-21 |
发明(设计)人: | 龚伟松;高敏;张慧霞;韦松松;徐玉莹;孙国川 | 申请(专利权)人: | 上海凯京信达科技集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06Q10/08 |
代理公司: | 11397 北京新知远方知识产权代理事务所(普通合伙) | 代理人: | 马军芳;刘玲 |
地址: | 200333 上海市普陀*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 清洗操作 物流数据 表结构 大数据 原始表 字段 存储 存储介质 错误数据 去重操作 数据清除 数据执行 异常数据 指定字段 数据处理 表存储 脏数据 物流 异构 申请 修正 挖掘 补充 纠正 分析 | ||
1.一种数据处理方法,其特征在于,包括:
获取待处理的物流数据;
将所述物流数据按照新的表结构进行存储,生成原始表;所述新的表结构包括多个表征物流属性的字段;
对所述原始表存储的所述物流数据中各字段下的数据执行第一清洗操作,得到第一中间表;其中,所述第一清洗操作包含以下一种或多种:数据去重操作、缺失值补充操作、多余数据清除操作和错误数据修正操作;
对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表;所述第二清洗操作包括异常数据纠正操作。
2.根据权利要求1所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作,得到最终表,包括:
对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测;
当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表。
3.根据权利要求2所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行异常检测,包括:
根据所述第一中间表中所述指定字段下的全部数据,确定所述指定字段对应的中位数;
根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常。
4.根据权利要求3所述的方法,其特征在于,根据所述指定字段对应的中位数,分别判断所述指定字段下的每个数据是否异常,包括:
针对所述指定字段下的每个数据分别执行如下操作:
根据所述指定字段下的当前数据所属的物流数据,对所述中位数进行调整,得到调整后的中位数;
将所述指定字段下的当前数据和所述调整后的中位数进行比较,若所述指定字段下的当前数据超过所述调整后的中位数的预设倍数,则所述指定字段下的当前数据异常。
5.根据权利要求2所述的方法,其特征在于,当检测出所述指定字段下的数据异常时,对检测出的异常数据进行修正,得到所述最终表,包括:
按照如下公式计算所述异常数据的修正值,并将所述异常数据替换为所述修正值,得到所述最终表:
其中,所述C为所述异常数据的修正值,所述M为所述指定字段对应的中位数,所述σ为所述指定字段下的全部数据的标准差,所述N为所述指定字段下的数据的总条数,所述xi为所述指定字段下的第i条数据值,所述r为所述指定字段下的全部数据的平均值。
6.根据权利要求1所述的方法,其特征在于,所述表征物流属性的字段包括以下一种或多种:
公司名称、日期、车型、车长、车牌号、司机信息、发车地、到达地、线路、线路类型、距离、收入、物流票数、快递件数、快递重量、快递体积。
7.根据权利要求6所述的方法,其特征在于,对所述第一中间表存储的所述物流数据中指定字段下的数据进行第二清洗操作之后,所述方法还包括:
从所述第一中间表中,筛选出所述公司名称、所述日期、所述车牌号和所述线路均相同的第一物流数据;
将所述第一物流数据按照第一合并规则进行合并,得到第二中间表;其中,所述第一合并规则为:分别对所述第一物流数据中数据类型为数值型的字段下的数据取最大值;
从所述第二中间表中,筛选出所述公司名称、所述日期、所述发车地相同、所述到达地不同的第二物流数据;
将所述第二物流数据按照第二合并规则进行合并,得到第三中间表;其中,所述第二合并规则为:分别对所述第二物流数据中除所述距离、且数据类型为数值型的字段的数据求和,并将所述距离最远的到达地作为合并后的到达地;
从所述第三中间表中,筛选出所述公司名称、所述日期和所述到达地相同、所述发车地不同的第三物流数据;
将所述第三物流数据按照第三合并规则进行合并,得到所述最终表;其中,所述第三合并规则为:分别对所述第三物流数据中除所述距离、且数据类型为数值型的字段对应的数据求和,并将所述距离最远的发车地作为合并后的发车地。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海凯京信达科技集团有限公司,未经上海凯京信达科技集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910846331.X/1.html,转载请声明来源钻瓜专利网。