[发明专利]利用博弈论更新推荐模型的方法及装置有效
申请号: | 202010968311.2 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112149824B | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 李辉;宋乐;王维强;王宁涛;金宏 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本说明书实施例提供一种更新推荐模型的方法和装置,其中推荐模型包括通过强化学习实现的智能体。方法包括:获取针对目标用户的当前推荐状态,将其输入智能体,智能体根据推荐策略,从备选动作集中确定针对目标用户的推荐动作。其中,推荐策略通过策略参数进行表征。然后,确定在执行上述推荐动作的情况下,按照推荐策略进行推荐的期望收益,作为第一收益;确定在推荐策略下,执行所有备选动作的预期平均收益,作为第二收益;并且,基于第一收益与第二收益的差值,确定执行推荐动作的遗憾度表示。根据上述遗憾度表示,确定对策略参数的更新梯度;于是根据更新梯度,更新智能体中的推荐策略。 | ||
搜索关键词: | 利用 博弈论 更新 推荐 模型 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010968311.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种橡胶成型机
- 下一篇:一种用于冰箱内胆斜面的冲孔设备