[发明专利]推荐策略训练方法、装置、电子设备及可读存储介质在审
申请号: | 202110104070.1 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112819215A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张韦嘉;刘浩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/06;G06Q30/02;G06Q50/06;G06N3/08 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 张博;陈丽宁 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 推荐 策略 训练 方法 装置 电子设备 可读 存储 介质 | ||
1.一种推荐策略训练方法,包括:
获取训练数据;其中,所述训练数据包括:多充电站中的每个所述充电站在充电请求出现时的状态信息;每个所述充电站针对所述充电请求的推荐动作值;以及,基于所述充电请求的推荐结果,每个所述充电站获取的奖励值;所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的;
根据所述训练数据对每个所述充电站的推荐策略进行训练;其中,所述推荐策略表征的是:所述充电站在所述充电请求出现时的状态信息,与所述充电站针对所述充电请求的推荐动作值之间的关系。
2.根据权利要求1所述的方法,其中,所述奖励值的参考目标包括以下至少一项:充电等待时间、充电价格。
3.根据权利要求1所述的方法,其中,所述根据所述训练数据对每个所述充电站的推荐策略进行训练,包括:
根据所述训练数据以及预设的期望累计奖励函数,对所述每个所述充电站的推荐策略进行训练;其中,所述训练的收敛条件为:最大化每个所述充电站的期望累计奖励值。
4.根据权利要求3所述的方法,其中,当所述奖励值的参考目标为充电等待时间或者充电价格时,所述预设的期望累计奖励函数为:
其中,m表示充电等待时间CWT或者充电价格CP;E表示环境;b表示充电站ci的待训练的推荐策略;表示充电站ci在充电请求qt时的状态信息;表示充电站ci针对充电请求qt的推荐动作值;表示从充电请求qt到其完成后的下一个请求qt+j所对应的累计折扣奖励值;Tt表示充电请求qt的出现时间,Tt+j表示充电请求qt+j的出现时间;表示充电请求qt所对应的期望累计奖励值,表示充电请求qt+j所对应的期望累计奖励值;γ表示折扣因子。
5.根据权利要求3所述的方法,其中,当所述奖励的参考目标包括充电等待时间和充电价格时,所述预设的期望累计奖励函数为:
其中,表示充电站ci在充电请求qt时的状态信息;D表示装载训练数据的数据库;表示充电站ci针对充电请求qt的推荐动作值;表示在待训练的推荐策略b下,针对充电等待时间CWT的充电请求qt所对应的期望累计奖励值;表示在待训练的推荐策略b下,针对充电价格CP的充电请求qt所对应的期望累计奖励值;
βt表示的动态更新权重;βt与第一差距比率和第二差距比率相关;所述第一差距比率与充电等待时间CWT相关,为待训练的推荐策略b和第一目标推荐策略之间的差距比率;所述第二差距比率与充电价格CP相关,为待训练的推荐策略b和第二目标推荐策略之间的差距比率。
6.根据权利要求5所述的方法,其中,
其中,表示所述第一差距比率,表示所述第二差距比率;表示在所述第一目标推荐策略下,针对充电等待时间CWT的充电请求qt所对应的期望累计奖励值;表示在所述第二目标推荐策略下,针对充电价格CP的充电请求qt所对应的期望累计奖励值。
7.根据权利要求1所述的方法,其中,所述根据所述训练数据对每个所述充电站的推荐策略进行训练之后,所述方法还包括:
获取第一充电请求;
根据每个所述充电站在第一充电请求出现时的状态信息以及训练得到的每个所述充电站的推荐策略,确定每个所述充电站的推荐动作值,得到多个推荐动作值,并推荐所述多个推荐动作值中的最大推荐动作值对应的充电站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110104070.1/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理