[发明专利]一种多维度数据去重方法及系统有效
申请号: | 201110301847.X | 申请日: | 2011-10-08 |
公开(公告)号: | CN103036697A | 公开(公告)日: | 2013-04-10 |
发明(设计)人: | 吕春建 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多维 度数 据去重 方法 系统 | ||
技术领域
本申请涉及网络数据处理领域,特别涉及一种多维度数据去重方法及系统。
背景技术
网络日志文件可以是一种采用多维度数据记录用户访问网络事件的文件,其中,多维度数据由描述用户访问网络事件的各个属性构成。例如,某大型网站的多维度数据格式可以为{用户id,省,市,域名,浏览器类型},该多维度数据的属性分别为用户id、省、市、域名和浏览器类型,其维度等于5。其中,一维度数据可以为{用户id},二维度数据可以为{用户id,省},三维度数据可以为{用户id,省,市},四维度数据可以为{用户id,省,市,域名},五维度数据可以为{用户id,省,市,域名,浏览器类型}。
然而,对于同一用户不同时间段的用户访问网络事件来说,网络日志文件中的多维度数据可能相同,因此,系统在分析网络日志文件记录的同一用户的多个多维度数据时,首先将网络日志文件中相同的多维度数据去重,以避免对相同的多维度数据重复分析。其中多维度数据去重是指删除网络日志文件中相同的多维度数据的重复记录,在网络日志文件中只保留相同的多个多维度数据的其中一个。相同的多维度数据是指由相同属性构成,且属性值也相同的多维度数据。
目前现有技术中多维度数据去重方法可以包括如下步骤:
首先,选取网络日志文件中维度相同的各个多维度数据进行划分。该划分的依据具体为:对所选取的各个多维度数据进行Hash计算,得出所选取的各个多维度数据的关键字,将具有完全相同关键字的各个多维度数据划分至同一个子日志文件。
其次,对于子日志文件中的任一个多维度数据,判断是否存在与其属性及属性值都相同的多维度数据,如果是,删除与该任一个多维度数据相同的其他多维度数据。
最后,判断所述网络日志文件中是否存在还未进行划分的其他维度的多维度数据,如果是,对还未进行划分的其他维度的多维度数据进行去重处理,如果否,结束多维度数据去重过程。
但是,上述去重过程中,需要依次对不同维度的各个多维度数据去重,即按照维度值分多次对多维度数据进行去重,因此,在对具有多个维度的多维度数据的网络日志文件划分时,每个划分过程都需要扫描网络日志文件中的所有维度的多维度数据,这增加了多维度数据的去重时间,降低了去重效率。更进一步地,如果后续还需要对该网络日志文件中的多维度数据进行分析,也会因为去重效率低而延迟分析过程。
发明内容
本申请所要解决的技术问题是提供一种多维度数据去重方法,用以解决现有技术依次对不同维度的多维度数据去重时,每个划分过程都需要扫描网络日志文件中的所有维度的多维度数据,从而增加了多维度数据的去重时间,降低了去重效率的问题。
本申请还提供了一种多维度数据去重系统,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请提供了一种多维度数据去重方法,包括:
依据网络日志文件中任一维度值的多维度数据的属性值确定划分值,其中,所述任一维度值小于所述网络日志文件中各个维度的多维度数据的最大维度;
将所述网络日志文件中包含相同的所述划分值的不同多维度数据划分至一个子日志文件;
对于所述子日志文件中的任一个多维度数据,判断是否存在与其属性及属性值都相同的多维度数据,如果是,则删除与所述任一个多维度数据相同的多维度数据。
优选地,所述依据网络日志文件中任一维度值的多维度数据的属性值确定划分值包括:将网络日志文件中维度为1的一维度数据的属性值确定为划分值。
优选地,在所述任一维度值不为1,且维度小于任一维度值的多维度数据不包括所述划分值的情况下,所述方法还包括:
选取所述网络日志文件中维度相同,且小于所述任一维度值的各个多维度数据;
运用Hash算法对所选取的各个多维度数据进行计算,得出所选取的各个多维度数据的关键字;
将具有完全相同的关键字的各个多维度数据划分至一个子日志文件。
优选地,所述将所述网络日志文件中包含有相同的所述划分值的多维度数据划分至一个子日志文件包括:
运用Hash算法对各个多维度数据包含的所述划分值进行计算,得出关键字;
将具有完全相同关键字的各个多维度数据划分至一个子日志文件。
优选地,所述将所述网络日志文件中包含相同的所述划分值的不同多维度数据划分至一个子日志文件包括:
依据所述网络日志文件的大小,将所述网络日志文件拆分为多个初始子文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110301847.X/2.html,转载请声明来源钻瓜专利网。