[发明专利]基于推荐场景的流式数据处理控频方法及系统在审
申请号: | 202011526777.3 | 申请日: | 2020-12-22 |
公开(公告)号: | CN112506980A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 谭长伟 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/28;G06F16/2455 |
代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 推荐 场景 数据处理 方法 系统 | ||
本申请公开了一种基于推荐场景的流式数据处理控频方法及系统,方法包括:环境获得步骤:获得可用的hadoo yarn集群或Apache Flink集群环境;ID用户存储步骤:在控频程序中以流式方式读取消息中间件的用户行为日志,解析获得用户ID及用户物料ID,统计每个所述用户ID对应不同的时间粒度访问过的所述物料ID后,按照kv对的形式存储在高速存储引擎中;计算扩容步骤:部署控频程序,调整task数量,进而实现计算扩容。本发明能够降低原来多个单机部署的维护成本,Apache Flink流式处理可以打到ms级延迟,速度更快。
技术领域
本发明属于基于推荐场景的流式数据处理控频的领域,具体涉及一种基于推荐场景的流式数据处理控频方法及系统。
背景技术
推荐系统广泛应用于不同的行业,如电商类(淘宝、京东等)、内容类(今日头条、网易等)、视频类(腾讯视频、爱奇艺视频等),推荐在这些行业的应用过程中都会面临同一个问题,就是推荐给用户的内容要新颖,推荐过的内容就不要重复推荐给用户,否则会让用户产生反感,影响用户体验,这样就需要保证推荐给每一个用户的内容是不同的。
如何知道哪些内容真正的被用户看到过呢?这需要依赖于app上用户的行为日志,试想淘宝、京东、今日头条这样app的用户是亿级别的,同时产生的行为日志也是海量的,如何处理这些海量的日志并保证推荐不重复的控频方式显得尤为重要。
与本发明相关的现有技术;
现有技术的技术方案:
将用户的行为日志存储在本地存储中,然后编写日志解析程序解析出用户浏览过的物料,将这些用户访问过的物料根据用户ID为key,物料列表为value存储在高速缓存中供下次推荐时排重使用。
现有技术的缺点:
由于用户行为日志是海量的,每天可能达到TB级别,使用本地存储即给存储带来极大的挑战,同时对于单机处理这些日志也带来了很大的困难,甚至需要多机部署,这样的问题是占用机器资源多,需要部署多套程序维护工作量大。
发明内容
本申请实施例提供了一种基于推荐场景的流式数据处理控频方法及系统,以至少解决相关技术中主观因素影响的问题。
本发明提供了一种流式数据处理控频方法,其中,包括:
环境获得步骤:获得可用的hadoo yarn集群或Apache Flink集群环境;
ID用户存储步骤:在控频程序中以流式方式读取消息中间件的用户行为日志,解析获得用户ID及用户物料ID,统计每个所述用户ID对应不同的时间粒度访问过的所述物料ID后,按照kv对的形式存储在高速存储引擎中;
计算扩容步骤:部署控频程序,调整task数量,进而实现计算扩容;
控频步骤:发起请求时,根据模型预测结果返回物料时读取所述kv高速缓存,以所述用户ID为key进行查询获得hash结构,通过所述hash结构及所述模型预测结果做对比到达控频效果。
上述流式数据处理控频方法,其中,所述ID用户存储步骤包括:
读取步骤:在控频程序中以流式方式读取所述消息中间件中的用户行为日志;
解析步骤:解析获得所述用户行为日志中的所述用户ID和所述用户物料ID;
存储步骤:使用Flink提供的算子统计每个所述用户ID对应不同的时间粒度访问过的所述用户物料ID,然后按照kv对的形式存储在高速存储引擎中。
上述流式数据处理控频方法,其中,所述存储步骤包括:以所述用户ID为key,以Hash结构存储时间和物料列表为value,或,以所述用户ID为key,以Hash结构存储所述用户物料ID和所述用户物料ID的访问次数为value。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011526777.3/2.html,转载请声明来源钻瓜专利网。