[发明专利]数据处理方法、装置、网络设备及存储介质在审
申请号: | 202010820389.X | 申请日: | 2020-08-14 |
公开(公告)号: | CN111966681A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 梁乐平 | 申请(专利权)人: | 咪咕文化科技有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/27 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 100088 北京市西城区德*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 网络设备 存储 介质 | ||
本发明实施方式涉及通信技术领域,公开了一种数据处理方法,包括:若某一数据表中的某一字段值的出现频度大于预设频度,则将所述字段值作为目标字段值,并将所述数据表作为第一数据表;将所述第一数据表的关联数据表作为第二数据表;对第二数据表中包含目标字段值的记录进行膨胀处理;将第一数据表和膨胀处理后的第二数据表中的目标字段值重置为若干个新的字段值;根据重置字段值后的第一数据表和第二数据表进行数据关联处理。本发明实施方式还提供了一种数据处理装置、网络设备及存储介质。本发明实施方式提供的数据处理方法、装置、网络设备及存储介质,可以使MapReduce处理数据关联的时间缩短。
技术领域
本发明涉及通信技术领域,特别涉及一种数据处理方法、装置、网络设备及存储介质。
背景技术
Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。基于Hive的海量数据关联的底层实现是MapReduce提供的,即计算作业在Map阶段根据数据的大小划分为多个分布式计算任务,然后进行partition(即相同的key的数据进入同一reduce),最后在reduce阶段进行合并运算。
然而,发明人发现现有技术至少存在以下问题:MapReduce程序在处理关联数据时,通常会由于数据表中的某个关联字段的条数比其它关联字段多出很多,而导致大部分reduce节点执行完毕时,仍然有一个或者几个reduce节点运行很慢,使MapReduce程序处理关联数据的时间较长。
发明内容
本发明实施方式的目的在于提供一种数据处理方法、装置、网络设备及存储介质,使得MapReduce处理数据关联的时间缩短。
为解决上述技术问题,本发明的实施方式提供了一种数据处理方法,包括:若某一数据表中的某一字段值的出现频度大于预设频度,则将所述字段值作为目标字段值,并将所述数据表作为第一数据表;将所述第一数据表的关联数据表作为第二数据表;对第二数据表中包含目标字段值的记录进行膨胀处理;将第一数据表和膨胀处理后的第二数据表中的目标字段值重置为若干个新的字段值;根据重置字段值后的第一数据表和第二数据表进行数据关联处理。
本发明的实施方式还提供了一种数据处理装置,包括:第一确定模块,用于在某一数据表中的某一字段值的出现频度大于预设频度时,将所述字段值作为目标字段值,并将所述数据表作为第一数据表;第二确定模块,用于将所述第一数据表的关联数据表作为第二数据表;膨胀模块,用于对第二数据表中包含目标字段值的记录进行膨胀处理;重置模块,用于将第一数据表和膨胀处理后的第二数据表中的目标字段值重置为若干个新的字段值;处理模块,用于根据重置字段值后的第一数据表和第二数据表进行数据关联处理。
本发明的实施方式还提供了一种网络设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的数据处理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的数据处理方法。
本发明实施方式相对于现有技术而言,通过将数据表中出现频度大于预设频度的字段值作为目标字段值,可以确定数据关联处理时关联条数较多的字段值;通过对第二数据表中包含目标字段值的记录进行膨胀处理,可以使数据关联时第二数据表中有足够的字段值被重置为新的字段值,从而能与第一数据表中重置的新的字段值相对应;通过对目标字段值重置为若干个新的字段值,可以使数据关联时目标字段值被分配在若干个reduce节点中进行处理,相比原来由更多的reduce节点共同处理关联条数较多的关联字段,从而解决某个reduce节点处理时间较长的问题,缩短MapReduce程序在数据关联时的处理时间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于咪咕文化科技有限公司;中国移动通信集团有限公司,未经咪咕文化科技有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010820389.X/2.html,转载请声明来源钻瓜专利网。