[发明专利]一种基于用户浏览轨迹推的大数据建模系统在审
申请号: | 201911285236.3 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111026745A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 陆洋 | 申请(专利权)人: | 江苏三六五网络股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/9535;G06F16/9536;G06K9/62 |
代理公司: | 南京常青藤知识产权代理有限公司 32286 | 代理人: | 毛洪梅 |
地址: | 210000 江苏省南京市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 浏览 轨迹 数据 建模 系统 | ||
本发明提供一种基于用户浏览轨迹推的大数据建模系统,包括应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;AI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;服务层,为各业务系统提供维度数据作为业务支撑;实现挖掘更有价值用户数据源,提高用户体验和使用率。
技术领域
本发明属于大数据建模技术领域,具体涉及一种基于用户浏览轨迹推的大数据建模系统。
背景技术
目前已有的相关大数据建模系统很多,在数据的可扩展性和规模性都很大,能满足许多日常统计性行为。但是具体实际业务驱动很缺乏,无法更深层次挖掘潜在数据和商机。如今需要更完善更智能的数据平台,挖掘更有价值用户,减轻运营人员的工作压力,和提高资源利用率和使用率。
发明内容
本发明的目的是提供一种基于用户浏览轨迹推的大数据建模系统,以解决目前大数据中业务驱动的问题,实现挖掘更有价值用户数据源,提高用户体验和使用率。
本发明提供了如下的技术方案:
一种基于用户浏览轨迹推的大数据建模系统,包括:应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;AI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;服务层,为各业务系统提供维度数据作为业务支撑。
进一步的,所述清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源,再采用Hive作为数据清洗引擎,将用户行为及上下文模型数据进行推理,进行数据预处理、加工、整合。
进一步的,所述AI数据中台中所述数据分析包括数据预处理和数据建模分析,所述数据预处理是从海量数据中提取可用特征,用Impala做数据预处理;所述数据建模分析是针对数据预处理提取的特征,用的机器学习算法包括决策树、协同过滤。
进一步的,所述AI数据中台通过多个服务器搭建Hadoop集群,Hadoop集群的框架核心为HDFS和MapReduce,HDFS是一个高度容错性系统,提高吞吐量的数据访问,同时利用了Impala的开源组件;通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive;通过Zookeeper提供数据同步服务,Impala是对hive对一个补充,可以实现高效的sql查询。
进一步的,所述AI数据中台,包括:兴趣源模块,基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,得到对结果放入HBbase数据表中,利用Hive对HBase中的用户行为及上下文模型数据进行推理,找出感兴趣数据源;马尔科夫模型模块,用户行为的浏览信息利用马尔科夫推荐模型建立模块,依据用户浏览轨迹补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase表中,依据用户兴趣源中数据,利用余玄因子法计算出每个用户兴趣相似度,构成兴趣相似度矩阵,集合马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;画像算法模块,画像算法将会对用户分成三种情况考虑,即根据用户访问数量多少,分为冷启动用户、低频访问用户和高频访问用户,并用于精确营销;推荐算法模块,采用SLIM算法得到了一个的用户预测矩阵R,对每个用户根据预测矩阵R得到目标用户对各个业务的预测评分,将评分较高的业务推测给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏三六五网络股份有限公司,未经江苏三六五网络股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911285236.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种雪梨干烘干设备及加工工艺
- 下一篇:瓦楞纸印刷机故障自动诊断的系统及方法