[发明专利]基于流式数据的自动化层级探索方法和装置在审

专利信息
申请号: 202110377785.4 申请日: 2021-04-08
公开(公告)号: CN113111085A 公开(公告)日: 2021-07-13
发明(设计)人: 郝俊禹;陈运文;文辉;于敬;纪达麒;王文广 申请(专利权)人: 达而观信息科技(上海)有限公司
主分类号: G06F16/2455 分类号: G06F16/2455;G06F16/23;G06F16/9535;G06F16/2457
代理公司: 上海智力专利商标事务所(普通合伙) 31105 代理人: 周涛
地址: 201203 上海市浦东新区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 数据 自动化 层级 探索 方法 装置
【说明书】:

发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层级探索方法和装置,该方法基于流式计算框架,包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端用户行为数据、通过用户行为数据触发新物品候选集更新;新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前一较低层级新物品候选集。本发明通过对线上实时流式数据进行处理,监控新物品候选集的曝光次数来自动触发候选集的更新,解决定时更新导致的曝光不均的问题;设置若干不同层级的新物品候选集,解决了新物品不同曝光次数下置信度相同的问题。

技术领域

本发明涉及数据探索方法领域,具体涉及基于流式数据的自动化层 级探索方法和装置。

背景技术

随着互联网技术和社会化网络的发展,每天都会有大量的信息比如 文字资讯、图片、视频、商品、广告等发布到互联网上。从推荐系统或 计算广告系统的角度来看,系统每时每刻都面临大量的新老用户、新老 物品以及大量的用户行为数据。

对于已知静态属性或有行为数据的用户或物品,需要对其进行建模、 刻画其画像,然后在推荐中加以利用(Exploitation);而对于新的用户 或物品,需要对其兴趣或者适用群体进行探索(Exploration),当然老 的用户或物品也是需要探索的。

探索(Exploration)和利用(Exploitation)问题在推荐系统 和计算广告领域是一个常见的问题,一般通过多臂老虎机模型(计算 机领域算法模型)来解决。它解决的问题是:一个人看到一排老虎机, 在不清楚老虎机吐钱的概率并且在足够多的尝试机会前提下,选择哪 个老虎机可以做到收益最大化。这里的老虎机类比推荐或广告中的物 品,每一次摇臂尝试类比于物品曝光,吐钱就类比用户点击。现实中, 探索机会是有限的,每一次物品曝光都是珍贵的,但是现实中老虎机 远远不止那一排老虎机的数量,此外还会有不断加入新物品的情况。

实际中可行的探索方法是基于定时任务的探索方法是定时从海量新 增的物品中挖掘“质量较高”的物品随机的曝光给用户,然后将经过线 上流量检验的优质物品推广给更多的用户群体,而新物品候选集的更新 频率一般是通过定时任务来控制的,比如利用crontab设置该新物品的 候选集每10分钟更新一次。

但是这种定时更新新物品候选集的方式会存在两大问题:

一、新物品探索不均,不管什么应用或者产品,它的流量在一天中 存在流量高峰、流量低谷,也就意味着通过定时任务控制新物品候选集 的更新势必会带来曝光不均的问题;

二、新物品置信度不高,出现该问题的原因在于探索不均,对于一 个物品而言曝光1000次被用户点击100次与另外一个物品曝光100次被 用户点击10次点击率是一样的,但是这两个物品的点击率是不等价的, 前者的置信度实际更高。

发明内容

随着Apache Storm,Spark Streaming以及Apache Flink等主流 的流式框架的成熟,对于实时的流式数据处理也在更多的项目中落地, 为了解决上述技术问题,本发明提供了一种基于流式数据的自动化层级 探索方法和装置,能够在小流量下快速探索出优质、高置信度的新物品, 本发明的技术目的是通过以下技术方案实现的:

基于流式数据的自动化层级探索方法,该方法基于流式计算框架, 包括:创建物品候选集、从物品候选集中获取样本生成新物品候选集、 将新物品候选集中的样本推送给终端用户、通过流式计算框架采集终端 用户行为数据、监控新物品候选集的曝光次数触发新物品候选集更新; 新物品候选集包括若干不同层级,较高层级新物品候选集的样本来自前 一较低层级新物品候选集。

进一步地,为每个层级的新物品候选集的样本设定曝光阈值,每个 层级的新物品候选集内的曝光次数达到设定阈值后对新物品候选集内的 样本全部进行更新。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110377785.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top