[发明专利]强化学习模型的更新方法和装置有效
申请号: | 201911206271.1 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110990548B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 张望舒;温祖杰 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/01;G06Q30/0207;G06N20/00 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本说明书实施例提供一种强化学习模型的更新方法和装置。强化学习模型包括第一动作价值网络和第二动作价值网络,分别承担第一比例和第二比例的线上流量,第一比例大于第二比例,方法包括:接收线上的当前问句;以当前问句作为当前状态,利用第一动作价值网络或利用第二动作价值网络得到当前状态对应的动作,以及相应的得到当前状态、动作、奖励和更新状态作为一条记录,将该条记录以一定概率存储;抽取记录,根据该记录对第二动作价值网络进行训练;当确定训练后的第二动作价值网络的效果优于第一动作价值网络时,将第一动作价值网络更新为训练后的第二动作价值网络。能够保证强化学习模型更新后的稳定性和质量。 | ||
搜索关键词: | 强化 学习 模型 更新 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911206271.1/,转载请声明来源钻瓜专利网。