[发明专利]一种推荐系统召回策略的离线评估方法、系统、装置及存储介质有效
申请号: | 201910924987.9 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110781340B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 徐文铭;杨晶生 | 申请(专利权)人: | 上海麦克风文化传媒有限公司 |
主分类号: | G06F16/635 | 分类号: | G06F16/635;G06F16/68 |
代理公司: | 上海九泽律师事务所 31337 | 代理人: | 周云;卢双双 |
地址: | 200030 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 推荐 系统 召回 策略 离线 评估 方法 装置 存储 介质 | ||
本发明公开了一种推荐系统召回策略的离线评估方法、系统、装置及存储介质,所述方法包括将推荐系统中的离线点击率预估模型封装成JAR文件包;获取M天的离线用户数据,其中M为正整数;根据离线用户数据,基于N组离线召回策略模型计算得到N组离线召回数据集,其中,N为大于1的正整数;将N组离线召回数据集的数据格式变换成离线点击率预估模型所需的数据格式;运行JAR文件包对数据格式变换后的N组离线召回数据集进行点击率预估得到对应的N组离线召回策略模型的预估分值,并将对应的分值数据保存至数据库;基于N组离线召回策略模型的预估分值对N组离线召回策略模型进行离线评估。本发明实现了召回策略离线的自动化评估,操作简单,评估结果可靠。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种推荐系统召回策略的离线评估方法、系统、装置及存储介质。
背景技术
推荐系统中召回粗排部分在离线开发时需要针对算法工程师开发的多种召回策略进行对比评估。首先,一般依靠算法工程师主观判断召回音频专辑的质量好坏。这需要相关人员对业务和运营有深刻的理解,同时不可避免的存在主观臆断性。再次,一些类似比较召回数据集覆盖度等结果的办法,也是不能很好的区分结果,同时和真实的线上业务实际场景存在差距,容易出现离线和线上偏差较大的情况。甚至得到相反的结论。此外,将新召回策略直接上线做ABtest也可以得到直接的判断依据,但这样做不仅开发成本巨大,同时如若召回集本身效果不佳,对线上业务直接产生很大负面影响,存在巨大风险。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,特别创新地提出了一种推荐系统召回策略的离线评估方法、系统、装置及存储介质,能够实现召回策略离线的自动化评估,评估结果可靠。
为了实现本发明的上述目的,根据本发明的第一个方面,本发明提供了一种推荐系统召回策略的离线评估方法,所述方法包括如下步骤:
将推荐系统中的离线点击率预估模型封装成JAR文件包;
获取M天的离线用户数据,其中所述M为正整数;
根据所述离线用户数据,基于N组离线召回策略模型计算得到N组离线召回数据集,其中,所述N为大于1的正整数;
将所述N组离线召回数据集的数据格式变换成所述离线点击率预估模型所需的数据格式;
运行所述JAR文件包对数据格式变换后的所述N组离线召回数据集进行点击率预估得到对应的N组离线召回策略模型的预估分值,并将对应的分值数据保存至数据库;
基于所述N组离线召回策略模型的预估分值对所述N组离线召回策略模型进行离线评估。
优选地,所述方法还包括:
建立所述离线点击率预估模型。
优选地,所述获取M天的离线用户数据包括:
从数据库中获取M天的用户登录信息,提取登录用户的用户ID。
优选地,所述基于所述N组离线召回策略模型的预估分值对所述N组离线召回策略模型进行离线评估包括:
对比所述N组离线召回策略模型的预估分值,根据所述预估分值的高低判断所述N组离线召回策略模型的好坏,并输出评估结果,其中,所述预估分值越高,则判定对应的离线召回策略模型越好。
根据本发明的第二个方面,本发明提供了一种推荐系统召回策略的离线评估系统,所述系统包括:
模型封装模块,用于将推荐系统中的离线点击率预估模型封装成JAR文件包;
数据获取模块,用于获取M天的离线用户数据,其中所述M为正整数;
数据处理模块,用于根据所述离线用户数据,基于N组离线召回策略模型计算得到N组离线召回数据集,其中,所述N为大于1的正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海麦克风文化传媒有限公司,未经上海麦克风文化传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910924987.9/2.html,转载请声明来源钻瓜专利网。