[发明专利]基于强化学习的推荐方法及装置有效
申请号: | 202010655207.8 | 申请日: | 2020-07-09 |
公开(公告)号: | CN111651679B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 张祺深 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/0251;G06Q30/0241;G06N3/092;G06N5/01 |
代理公司: | 北京永新同创知识产权代理有限公司 11376 | 代理人: | 林锦辉;刘景峰 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 推荐 方法 装置 | ||
本说明书实施例提供了一种基于强化学习的推荐方法及装置。在该推荐方法中,响应于用户针对连续推荐场景的推荐请求,按照以下方式为用户进行连续推荐,直至结束推荐:获取用户的当前状态信息;使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容;以及向用户推送所述下一批推荐内容,其中,下一批推荐内容作为连续推荐中的下一推荐过程的当前推荐内容,其中,强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列,强化学习算法的环境状态包括用户的状态信息,强化学习算法的回报包括基于用户反馈行为的业务反馈信息。
技术领域
本说明书实施例涉及机器学习技术领域,具体地,涉及一种基于强化学习的推荐方法及装置。
背景技术
网络的普及给用户带来了大量的信息,满足了用户对信息的需求,但随着网络上信息的大幅增长,对于用户来说,这些信息中可能仅有小部分是需要的信息,很难从大量的信息中获取到所需的信息,这样就导致了信息超载的问题。为了解决信息超载的问题,推荐系统应运而生,推荐系统可以根据用户的需求给用户推荐感兴趣的信息、商品等。
推荐系统已应用于电子商务、影视推荐、音乐电台推荐、社交网络、个性化阅读、个性化广告等领域中。推荐系统可以分为一次性推荐和连续推荐,在一次性推荐中,用户每请求一次推荐系统仅推荐一次,比如,当用户点击喜欢的电影时,推荐系统会为该用户推荐一组(比如10部)类似的电影。在连续推荐中,推荐系统自动地为用户进行连续推荐,比如用户阅览下滑页面时,用户连续地下滑的同时推荐系统连续地在下滑页面中展示推荐内容。
发明内容
鉴于上述,本说明书实施例提供了一种基于强化学习的推荐方法及装置。该推荐方法用于连续推荐场景,在连续推荐的每个推荐过程中,首先获取用户的当前状态信息,然后使用推荐模型和当前状态信息并根据强化学习算法来确定下一批推荐内容,所确定的下一批推荐内容即为下一推荐过程的当前推荐内容。上述基于强化学习的推荐方法所确定的下一批推荐内容除了用户的当前状态信息的因素以外,还考虑了连续推荐过程中动作序列的影响因素,使得所确定的下一推荐内容的累积回报最大,进而达到更佳的推荐效果。
根据本说明书实施例的一个方面,提供了一种基于强化学习的推荐方法,包括:响应于用户针对连续推荐场景的推荐请求,按照以下方式为所述用户进行连续推荐,直至结束推荐:获取所述用户的当前状态信息;使用推荐模型和所述当前状态信息并根据强化学习算法来确定下一批推荐内容;以及向所述用户推送所述下一批推荐内容,其中,所述下一批推荐内容作为所述连续推荐中的下一推荐过程的当前推荐内容,其中,所述强化学习算法的动作序列包括基于用户反馈行为的推荐内容序列,所述强化学习算法的环境状态包括所述用户的状态信息,所述强化学习算法的回报包括基于用户反馈行为的业务反馈信息。
可选地,在上述方面的一个示例中,获取所述用户的当前状态信息包括:在所述连续推荐中的首次推荐时,获取所述用户的用户特征信息和/或历史行为状态信息。
可选地,在上述方面的一个示例中,获取所述用户的当前状态信息包括:在所述连续推荐中的非首次推荐时,获取当前推荐内容;以及基于所述当前推荐内容,获取所述用户的当前状态信息,其中,所述当前状态信息包括行为状态信息,所述行为状态信息表征的用户行为状态是针对所述当前推荐内容的用户反馈行为导致的。
可选地,在上述方面的一个示例中,所述当前状态信息还包括所述用户的用户特征信息和/或历史行为状态信息。
可选地,在上述方面的一个示例中,所述行为状态信息包括点击查看行为状态信息、购买行为状态信息、浏览行为状态信息和收藏行为状态信息中的至少一种。
可选地,在上述方面的一个示例中,所述业务反馈信息包括针对推荐内容的点击量信息、购买金额信息和浏览时长信息中的至少一种。
可选地,在上述方面的一个示例中,还包括:利用所述当前状态信息和当前推荐内容对所述推荐模型进行更新,以使得更新后的推荐模型应用于所述连续推荐中的下一推荐过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010655207.8/2.html,转载请声明来源钻瓜专利网。