[发明专利]文件处理方法、装置及系统有效
申请号: | 201810659211.4 | 申请日: | 2018-06-22 |
公开(公告)号: | CN109101531B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 于连宇;高锋 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/182 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 杨静 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 处理 方法 装置 系统 | ||
本公开提供了一种文件处理方法。所述方法包括:获取待处理的文件,其中,所述文件包括多条记录,每条记录包括多个字段;以及基于所述多个字段中最不重复的至少一组字段,按照文件分割数量分割所述文件,以确定所述文件中的每条记录所属的分区,其中,所述分区对应的计算系统处理所述分区对应的记录,不同分区对应的计算系统不同。本公开还提供了一种文件处理装置、以及文件处理系统。
技术领域
本公开涉及一种文件处理方法、装置及系统。
背景技术
Hadoop等分布式文件系统进行文件处理时通常需要将目标文件切分为多个块,对多个块并行处理并在并行处理完成之后将多个块的执行结果进行汇总处理,以此方式提高文件的处理效率。这样,在一定程度上分布式系统的执行时间取决于任务执行时间最长的块的执行时间。因此如何合理的切分目标文件,是分布式系统运行的关键因素之一。
发明内容
本公开的一个方面提供了文件处理方法。所述方法包括:获取待处理的文件,所述文件包括多条记录,每条记录包括多个字段;以及基于所述多个字段中最不重复的至少一组字段,按照文件分割数量分割所述文件,以确定所述文件中的每条记录所属的分区,其中,所述分区对应的计算系统处理所述分区对应的记录,不同分区对应的计算系统不同。
根据本分开的实施例,所述方法还包括基于每个字段的自重复率以及不同字段之间的相似性,确定所述最不重复的至少一组字段。
根据本分开的实施例,所述方法还包括以记录作为维度对所述文件进行随机抽样,得到抽样样本文件。所述基于每个字段的自重复率以及不同字段之间的相似性,确定所述最不重复的至少一组字段,包括在所述抽样样本文件中,基于每个字段的自重复率以及不同字段之间的相似性,确定所述最不重复的至少一组字段。
根据本公开的实施例,基于每个字段的自重复率以及不同字段之间的相似性,确定所述最不重复的至少一组字段,包括从所述多个字段中筛选出自重复率最低的至少两个字段,得到一组候选字段,以及从所述一组候选字段中筛选出相似性满足预设要求的至少一组字段,得到所述最不重复的至少一组字段。
根据本公开的实施例,所述自重复率包括在每个字段的取值集合中重复的元素个数与集合的元素总个数之比,其中所述每个字段的取值集合为该字段在不同记录中的取值的集合。所述相似性包括两个字段对应的向量之间的相似性,其中,每个字段对应的向量为该字段在所述不同记录中的取值组合形成。
根据本公开的实施例,从所述一组候选字段中筛选出相似性满足预设要求的至少一组字段,得到所述最不重复的至少一组字段,包括对于所述一组候选字段中的任意两个候选字段,当所述两个候选字段对应的向量的相似性小于区分度阈值时,筛选出所述两个候选字段,或者当所述两个候选字段对应的向量的相似性大于所述区分度阈值时,筛选出所述两个候选字段的其中之一。
根据本公开的实施例,所述基于所述多个字段中最不重复的至少一组字段,按照文件分割数量分割所述文件,以确定所述文件中的每条记录所属的分区,包括对于每条记录,对所述最不重复的至少一组字段按照预定规则进行组合运算,得到组合运算结果,以及将所述每条记录映射到与所述组合运算结果对应的分区。
本公开的另一方面还提供了一种文件处理装置。所述装置包括文件获取模块、和文件分割模块。文件获取模块用于获取待处理的文件,所述文件包括多条记录,每条记录包括多个字段。文件分割模块用于基于所述多个字段中最不重复的至少一组字段,按照文件分割数量分割所述文件,以确定所述文件中的每条记录所属的分区,其中,所述分区对应的计算系统处理所述分区对应的记录,不同分区对应的计算系统不同。
根据本公开的实施例,所述装置还包括字段确定模块。字段确定模块用于基于每个字段的自重复率以及不同字段之间的相似性,确定所述最不重复的至少一组字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810659211.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高效用事件序列模式挖掘方法
- 下一篇:检测作弊方法、装置及设备