[发明专利]车辆进程管理方法、车辆和存储介质在审
申请号: | 202211004002.9 | 申请日: | 2022-08-19 |
公开(公告)号: | CN115373817A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 朱庆祺;罗伍峙 | 申请(专利权)人: | 广州小鹏汽车科技有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06N3/04;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 于腾昊 |
地址: | 510000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 车辆 进程 管理 方法 存储 介质 | ||
1.一种车辆进程管理方法,其特征在于,包括:
多次获取车辆驾驶场景下运行的多个进程优先级组合的当前状态、所述当前进程优先级组合的奖励值、配置优先级的动作和根据所述动作配置优先级后的进程优先级组合的下一状态作为经验序列加入经验回放池;
从所述经验回放池中选择预设数量的所述经验序列进行处理得到目标优先级组合;
根据所述目标优先级组合管理对应的所述车辆驾驶场景下运行的多个所述进程。
2.根据权利要求1所述的车辆进程管理方法,其特征在于,所述多次获取车辆驾驶场景下运行的多个进程优先级组合的当前状态、所述当前进程优先级组合的奖励值、配置优先级的动作和根据所述动作配置优先级后的进程优先级组合的下一状态作为经验序列加入经验回放池,包括:
获取每个所述当前状态的原始奖励值;
通过价值网络输出每个所述当前状态的Q值;
在所述下一状态不是最终状态的情况下,根据所述原始奖励值和所述Q值确定所述奖励值。
3.根据权利要求2所述的车辆进程管理方法,其特征在于,所述获取每个所述当前状态的原始奖励值,包括:
获取每个所述当前状态对应的多个所述进程的响应总时间;
若所述响应总时间大于预设时间阈值,则确定所述原始奖励值为第一设定值;或
若所述响应总时间不大于预设时间阈值,则确定所述原始奖励值为第二设定值。
4.根据权利要求2所述的车辆进程管理方法,其特征在于,所述在所述下一状态不是最终状态的情况下,根据所述原始奖励值和所述Q值确定所述奖励值,包括:
将所述原始奖励值加上折扣因子与已输出的最大Q值之积得到所述奖励值。
5.根据权利要求1所述的车辆进程管理方法,其特征在于,所述多次获取车辆驾驶场景下运行的多个进程优先级组合的当前状态、所述当前进程优先级组合的奖励值、配置优先级的动作和根据所述动作配置优先级后的进程优先级组合的下一状态作为经验序列加入经验回放池,包括:
采用贪心策略获取每次配置优先级的所述动作,其中所述贪心策略的贪心值与获取次数呈反比。
6.根据权利要求1所述的车辆进程管理方法,其特征在于,所述从所述经验回放池中选择预设数量的所述经验序列进行处理得到目标进程优先级组合,包括:
从所述经验回放池中选择预设数量的所述经验序列对深度强化学习模型进行训练;
计算所述深度强化学习模型的损失值;
根据所述损失值更新所述深度强化学习模型的参数;
根据更新后的所述深度强化学习模型确定所述目标优先级组合。
7.根据权利要求6所述的车辆进程管理方法,其特征在于,所述计算所述深度强化学习模型的损失值,包括:
通过所述深度强化学习模型输出每个所述当前状态的Q值;
根据所述奖励值和对应的所述Q值计算所述深度强化学习模型的损失值。
8.根据权利要求6所述的车辆进程管理方法,其特征在于,所述根据更新后的所述深度强化学习模型确定所述目标优先级组合,包括:
若所述深度强化学习模型的更新次数达到预设次数,则确定所述深度强化学习模型更新完成;
根据更新完成后的所述深度强化学习模型确定所述目标优先级组合。
9.一种车辆,其特征在于,所述车辆包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-8任一项所述的车辆进程管理方法。
10.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-8任一项所述的车辆进程管理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州小鹏汽车科技有限公司,未经广州小鹏汽车科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211004002.9/1.html,转载请声明来源钻瓜专利网。