[发明专利]一种面向收益提升的无偏学习排序方法有效
申请号: | 202011491942.6 | 申请日: | 2020-12-17 |
公开(公告)号: | CN112612951B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 张伟楠;戴心仪;侯嘉伟;西云佳;俞勇 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N20/00 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 收益 提升 学习 排序 方法 | ||
1.一种面向收益提升的无偏机器学习排序方法,其特征在于,基于有偏的用户行为数据,建模一个无偏的机器学习排序模型,直接面向收益提升进行优化;
所述无偏的机器学习排序模型包括一个位置敏感的点击率预估模型,以及一个排序打分函数;
其学习过程分两步进行:
第一步,学习所述位置敏感的点击率预估模型来得到目标效益的无偏估计;
第二步,基于上一步得到的无偏估计的变化量使用成对损失函数学习所述排序打分函数;
包括如下步骤:
步骤1、从和用户的交互中,得到用户的点击日志;
步骤2、根据具体的应用场景,定义目标效益的形式;所述目标效益的形式包括点击率/购买率的加权求和形式;
步骤3、从所述点击日志中随机抽取Sc个点击数据,训练所述基于位置敏感的点击率预估模型gθ(fi,ki);
步骤4、基于所述点击日志和所述基于位置敏感的点击率预估模型gθ(fi,ki),得到每条查询上所述目标效益的无偏估计;
步骤5、开始所述排序打分函数的学习,首先随机初始化所述排序打分函数si=Φ(fi);
步骤6、根据当前所述排序打分函数进行排序,得到每个查询下的排序列表;
步骤7、随机挑选Sr对来自同一个查询下的文档对,计算交换这对样本之后,目标效益估计的差值;
步骤8、根据每对样本的所述目标效益估计的差值,更新所述排序打分函数Φ(fi);
步骤9、重复步骤6-8,直至所述排序打分函数收敛。
2.如权利要求1所述的方法,其特征在于,所述步骤1中,所述点击日志表示为集合其中Q表示所有查询的集合,nq表示当前查询下文档的数目,i和q分别表示文档和查询的下标,每一条包括以下信息:bi表示效益权重,ki表示位置,表示是否点击,fi表示特征,fi包括查询特征fq、文档特征fd、上下文特征fc。
3.如权利要求2所述的方法,其特征在于,所述步骤2中,所述目标效益被定义为在一个固定的查询集合中,每个查询上排序列表上物品点击的加权期望和,具体的,每个查询上的所述目标效益被定义为:
其中表示物品i被放在当前位置上的点击率,bi表示每个物品对应的效益相关权重。
4.如权利要求3所述的方法,其特征在于,所述步骤3中,优化以下损失函数直至收敛;
其中l(p,q)=-plogq-(1-p)log(1-q)为交叉熵损失。
5.如权利要求4所述的方法,其特征在于,所述步骤4中,所述目标效益的无偏估计计算公式为:
其中ki和分别表示物品i在当前排序下的位置和在点击日志中的位置;
该式的无偏性可以由以下的推导证明,
6.如权利要求5所述的方法,其特征在于,所述步骤7中,所述目标效益估计的差值的计算公式为:
ΔUtil(i,j)=u(i,kj)+u(j,ki)-u(i,ki)-u(j,kj);
其中,u(i,ki)表示物品i被放在位置ki的效益,具体地,
7.如权利要求6所述的方法,其特征在于,所述步骤8中,更新的目标来自于以所述目标效益估计的差值为权重的pairwise损失函数:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011491942.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:石墨烯电池空调暖通设备
- 下一篇:一种轨迹生成方法、装置、设备及存储介质