[发明专利]基于流式数据的自动化层级探索方法和装置在审
申请号: | 202110377785.4 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113111085A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 郝俊禹;陈运文;文辉;于敬;纪达麒;王文广 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/23;G06F16/9535;G06F16/2457 |
代理公司: | 上海智力专利商标事务所(普通合伙) 31105 | 代理人: | 周涛 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数据 自动化 层级 探索 方法 装置 | ||
本发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层级探索方法和装置,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、通过用户行为数据触发新物品候选集更新;新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。本发明通过对线上实时流式数据进行处理,监控新物品候选集的曝光次数来自动触发候选集的更新,解决定时更新导致的曝光不均的问题;设置若干不同层级的新物品候选集,解决了新物品不同曝光次数下置信度相同的问题。
技术领域
本发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层 级探索方法和装置。
背景技术
随着互联网技术和社会化网络的发展,每天都会有大量的信息比如 文字资讯、图片、视频、商品、广告等发布到互联网上。从推荐系统或 计算广告系统的角度来看,系统每时每刻都面临大量的新老用户、新老 物品以及大量的用户行为数据。
对于已知静态属性或有行为数据的用户或物品,需要对其进行建模、 刻画其画像,然后在推荐中加以利用(Exploitation);而对于新的用户 或物品,需要对其兴趣或者适用群体进行探索(Exploration),当然老 的用户或物品也是需要探索的。
探索(Exploration)和利用(Exploitation)问题在推荐系统 和计算广告领域是一个常见的问题,一般通过多臂老虎机模型(计算 机领域算法模型)来解决。它解决的问题是:一个人看到一排老虎机, 在不清楚老虎机吐钱的概率并且在足够多的尝试机会前提下,选择哪 个老虎机可以做到收益最大化。这里的老虎机类比推荐或广告中的物 品,每一次摇臂尝试类比于物品曝光,吐钱就类比用户点击。现实中, 探索机会是有限的,每一次物品曝光都是珍贵的,但是现实中老虎机 远远不止那一排老虎机的数量,此外还会有不断加入新物品的情况。
实际中可行的探索方法是基于定时任务的探索方法是定时从海量新 增的物品中挖掘“质量较高”的物品随机的曝光给用户,然后将经过线 上流量检验的优质物品推广给更多的用户群体,而新物品候选集的更新 频率一般是通过定时任务来控制的,比如利用crontab设置该新物品的 候选集每10分钟更新一次。
但是这种定时更新新物品候选集的方式会存在两大问题:
一、新物品探索不均,不管什么应用或者产品,它的流量在一天中 存在流量高峰、流量低谷,也就意味着通过定时任务控制新物品候选集 的更新势必会带来曝光不均的问题;
二、新物品置信度不高,出现该问题的原因在于探索不均,对于一 个物品而言曝光1000次被用户点击100次与另外一个物品曝光100次被 用户点击10次点击率是一样的,但是这两个物品的点击率是不等价的, 前者的置信度实际更高。
发明内容
随着Apache Storm,Spark Streaming以及Apache Flink等主流 的流式框架的成熟,对于实时的流式数据处理也在更多的项目中落地, 为了解决上述技术问题,本发明提供了一种基于流式数据的自动化层级 探索方法和装置,能够在小流量下快速探索出优质、高置信度的新物品, 本发明的技术目的是通过以下技术方案实现的:
基于流式数据的自动化层级探索方法,该方法基于流式计算框架, 包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、 将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端 用户行为数据、监控新物品候选集的曝光次数触发新物品候选集更新; 新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前 一较低层级新物品候选集。
进一步地,为每个层级的新物品候选集的样本设定曝光阈值,每个 层级的新物品候选集内的曝光次数达到设定阈值后对新物品候选集内的 样本全部进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110377785.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水稻抗倒伏栽培方法
- 下一篇:一种高纤维果醋茶饮及其制备方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置