[发明专利]一种用户兴趣分类方法有效
申请号: | 201911211976.2 | 申请日: | 2019-12-02 |
公开(公告)号: | CN111026960B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 雷鸣 | 申请(专利权)人: | 上海麦克风文化传媒有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 上海九泽律师事务所 31337 | 代理人: | 周云;卢双双 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 兴趣 分类 方法 | ||
1.一种用户兴趣分类方法,其特征在于:使用UCB方法来计算用户的兴趣偏好,是在近实时的情况下进行计算,借助大数据工具SparkStreaming系统+Kafka系统+Hbase系统来搭建整个计算流程,整个计算流程步骤如下:
S1:服务器通过Kafka系统将原始数据收据,并通过Kafka系统传输到下游;
S2:通过SparkStreaming系统接收步骤S1中Kafka系统传输下来的数据,并将传输下来的数据解析聚合成计算机语言的数据格式,再通过Kafka系统传输到下游;
S3:下游通过SparkStreaming系统接收步骤S2中Kafka系统传输下来的解析合成数据,首先对传输下来的解析合成数据进行解析,实时统计当前批次用户的各个类别的曝光次数分布、播放次数分布,并且获取当前批次用户在Hbase系统已经存储的各个类别的历史曝光次数分布、历史播放次数分布,代入UCB公式,得到当前批次用户的各个类别UCB的最新值;所述UCB公式为
整个公式由两部分组成收益+探索两部分组成,前者是倾向于推荐当前平均播放收益大的类别的音频产品,后者是倾向于推荐曝光次数相对较少的类别的音频产品;
所述PCj和PHj为用户在类别j的当前批次的播放次数和历史播放次数,PC和PH为用户当前批次所有类别的播放次数和所有类别的历史播放次数,VCj和VHj为用户在类别j的当前批次的曝光次数和历史曝光次数,VC和VH为用户当前批次所有类别的曝光次数和所有类别的曝光播放次数,参数β控制收益部分和探索部分的比重;
S4:将步骤S3中计算后得出的当前批次的用户的最新的各个类别的曝光次数分布、播放次数分布、UCB分值进行分类,同步更新到Hbase系统中,方便服务器根据用户的兴趣进行分类推送。
2.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Kafka系统是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
3.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Spark Streaming系统对于Spark核心API的拓展,从而支持对于实时数据流的可拓展,高吞吐量和容错性流处理,所述SparkStreaming系统接收到实时数据流同时将其划分为分批,这些数据的分批将会被Spark的引擎所处理从而生成同样按批次形式的最终流。
4.根据权利要求3所述的一种用户兴趣分类方法,其特征在于:所述Spark是专为大规模数据处理而设计的快速通用的计算引擎,所述API是一些预先定义的函数,或指软件系统不同组成部分衔接的约定。
5.根据权利要求1所述的一种用户兴趣分类方法,其特征在于:所述Hbase系统是一个分布式的、面向列的开源数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
6.根据权利要求5所述的一种用户兴趣分类方法,其特征在于:所述PCServer是电脑服务器,是指网络中能对其它机器提供某些服务的计算机系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海麦克风文化传媒有限公司,未经上海麦克风文化传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911211976.2/1.html,转载请声明来源钻瓜专利网。