[发明专利]用户流量数据处理方法、处理装置、电子设备和存储介质在审
申请号: | 201710040291.0 | 申请日: | 2017-01-18 |
公开(公告)号: | CN108322355A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 谢群群;邵荣防;郝晖;李瑞亮;程浩 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08;G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 王洵 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流量数据 用户流量 浏览数据 数据处理 点击数 浏览 用户流量数据 处理装置 存储介质 电子设备 路径产生 数据清洗 用户路径 时效性 数据量 合法 | ||
提出了一种用户流量数据处理方法,包括:对用户流量数据进行数据清洗以产生合法流量数据,合法流量数据包括点击数据和浏览数据;利用点击数据产生点击路径;利用浏览数据产生浏览路径;以及根据点击路径和浏览路径产生用户路径树。本发明在数据量、时效性、准确性方面都得到了提高。
技术领域
本发明涉及互联网技术领域,具体涉及用户流量数据处理方法、处理装置、电子设备和存储介质。
背景技术
目前随着海量数据的增长,现有的流量分析模型在数据量,时效性、扩展性以及准确性都难以满足实际使用要求。
目前网站内部流量分析模型大部分为单机计算方案,在流量分析方面使用了简单的URL(Uniform Resource Locator)规则来进行不同流量之间的关联。使用单机计算处理大量数据,分析模型方面使用URL规则以及部分业务规则来进行流量建模分析。
这种流量分析模型存在的主要问题是:1、使用了单机处理程序,受限于单机性能,数据量处理受限,面对海量数据处理无法使用;2、处理时间过长,在海量数据前面,单机程序或者简单的并行计算框架难以满足数据时效性的要求;3、流量分析模型结果不准确,简单的依赖了URL规则和业务规则,在面对复杂的网络环境和用户行为时得到的结果准确率低。
发明内容
有鉴于此,本发明提出了一种基于分布式计算框架以及路径树计算的流量分析模型,相比现有技术,数据量、时效性、准确性方面都得到了提高。
根据本发明的第一方面,提供一种用户流量数据处理方法,包括:对用户流量数据进行数据清洗以产生合法流量数据,所述合法流量数据包括点击数据和浏览数据;利用点击数据产生点击路径;利用浏览数据产生浏览路径;以及根据点击路径和浏览路径产生用户路径树。
在一个实施例中,数据清洗可以包括非法用户ID清洗、非法请求频率清洗和黑名单IP地址清洗中的一个或多个。
在一个实施例中,利用点击数据产生点击路径可以包括:对点击数据进行去重;将点击数据处理成URL,记录发生点击页面的前一个页面的URL、发生点击的页面的URL、以及点击后跳转的页面的URL;按照时间顺序对点击数据进行排序,将发生点击的页面的URL和前一个页面的URL以及点击后跳转的页面的URL进行串联;以及将一段时间内中间无点击数据的两个URL进行直接串联。
在一个实施例中,利用浏览数据产生浏览路径可以包括:提取用户浏览页面URL和浏览时间;按照浏览时间对用户浏览页面URL进行排序;以及串联用户浏览页面URL以产生用户浏览路径。
在一个实施例中,所述方法还可以包括合并点击路径和浏览路径以产生用户路径树。
在一个实施例中,产生用户路径树可以包括:按照用户ID将点击路径和浏览路径进行聚合;按照时间顺序,对聚合后的点击路径和浏览路径进行排序,产生点击数据和浏览数据至少部分交替出现的用户路径数据;针对丢失点击数据的浏览数据,将浏览页面URL直接串联,并且针对丢失浏览数据的点击数据,则去除该点击数据,以产生点击数据和浏览数据完全交替出现的用户路径数据;以及将用户路径数据中的点击数据转换为边并且将浏览数据转换为节点,以产生用户路径树。
根据本发明的第二方面,提供一种用户流量数据处理装置,包括:数据清洗模块,被配置为对用户流量数据进行数据清洗以产生合法流量数据,所述合法流量数据包括点击数据和浏览数据;点击路径产生模块,被配置为利用点击数据产生点击路径;浏览路径产生模块,被配置为利用浏览数据产生浏览路径;以及用户路径树产生模块,被配置为合并点击路径和浏览路径,以产生用户路径树。
根据本发明的第三方面,提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据本发明的第一方面所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710040291.0/2.html,转载请声明来源钻瓜专利网。