[发明专利]一种无人机避障和路径规划装置及方法在审
申请号: | 202110228122.6 | 申请日: | 2021-03-02 |
公开(公告)号: | CN112819253A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 吕岳;张浩然;田应洪;沈季玮 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06N3/04;G06N3/08 |
代理公司: | 上海硕力知识产权代理事务所(普通合伙) 31251 | 代理人: | 郭桂峰 |
地址: | 200333 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无人机 路径 规划 装置 方法 | ||
1.一种无人机避障和路径规划装置,包括:
深度图采集模块,用于采集飞行环境深度图片;
变分自编码器构建单元,用于构建变分自编码器,将采集的深度图片输入变分自编码器,对输入的深度图片降维,输出深度图的隐变量;
因果强化学习模型构建单元,用于构建强化学习模型,使用DDPG作为强化学习模型框架,接收所述变分自编码器输出的隐变量因子以及无人机当前位置距离目标点的差值向量D(x,y)进行处理,输出动作控制量控制所述无人机飞行速度。
2.如权利要求1所述的一种无人机避障和路径规划装置,其特征在于:所述变分自编码器通过使用编码器,利用其编码功能对采集的深度图片进行降维,同时分离图片像素间的相关性输出相对独立的隐变量因子Z。
3.如权利要求2所述的一种无人机避障和路径规划装置,其特征在于,所述强化学习模型包括:
动作决策网络,根据输入的无人机当前状态S经过三层不同数量神经元的全连接网络最终输出相应动作决策a,并实时更新;
动作决策目标网络,与所述动作决策网络结构相同,利用经验回放池中采样的下一状态S′作为输入,输出最优下一动作a′为价值评估网络提供目标动作;
价值评估网络,根据输入无人机当前所处状态S以及所述动作决策网络输出的动作决策输出a,经过三层具有不同数量神经元的全连接网络对当前状态做出对应动作的策略的价值评估Q(S,a),并实时更新;
目标价值网络,其输入为下一次无人机所处状态以及所述动作决策目标网络输出的下一次最佳动作a′,输出下一次动作及状态价值,将所述目标价值网络的输出作为下一次动作价值评估的真实回报,通过回报函数计算当前状态及动作真实回报作为所述动作决策目标网络的目标价值。
4.如权利要求3所述的一种无人机避障和路径规划装置,其特征在于:所述动作决策网络的更新梯度▽J(θ)为所述价值评估网络输出的该动作决策对当前状态映射关系的价值评估。
5.如权利要求4所述的一种无人机避障和路径规划装置,其特征在于:所述动作决策目标网络在所述动作决策网络和该动作决策目标网络时间差分达到预设阈值时用所述动作决策网络的参数对该动作决策目标网络进行参数更新。
6.如权利要求5所述的一种无人机避障和路径规划装置,其特征在于:所述价值评估网络的更新梯度为将所述目标价值网络对动作决策目标网络输出的最佳下次动作a′和下一步状态进行评估输出的目标价值yi与该价值评估网络输出的价值Q(S,a)作差的差值。
7.如权利要求6所述的一种无人机避障和路径规划装置,其特征在于:所述目标价值网络在所述价值评估网络和该目标价值网络时间差分达到预设阈值时用所述价值评估网络的参数对该网络进行参数更新。
8.如权利要求7所述的一种无人机避障和路径规划装置,其特征在于:所述因果强化学习模型构建单元还构建因果发现算法,通过二值化因果图去除变分自编码器输出中的混杂因子和无关因子。
9.如权利要求8所述的一种无人机避障和路径规划装置,其特征在于:当所述强化学习模型训练达到较为收敛的结果时,保存模型参数,所述因果强化学习模型构建单元在所述强化学习模型中添加二值化因果关系矩阵滤除无关和混杂因子,通过Q-Learning的方式对二值化因果关系矩阵进行更新直到得到最终的二值化因果图,完成因果发现。
10.一种无人机避障和路径规划方法,包括如下步骤:
步骤S1,采集无人机飞行环境深度图片;
步骤S2,将采集的深度图片输入变分自编码器,对输入的深度图片降维,输出深度图片的隐变量;
步骤S3,构建强化学习模型,使用DDPG作为强化学习模型框架,获取所述变分自编码器输出的隐变量因子和无人机当前位置距离目标点的差值向量D(x,y)进行处理,输出动作控制量控制所述无人机飞行速度;
步骤S4,随机采样m个样本训练对构建的强化学习模型进行训练;
步骤S5,改变与无人机进行交互的外界环境,进行因果学习,从而达到对步骤S2中输入隐变量进行选择的效果,滤除无关变量,以增加智能体的泛化能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110228122.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空调器底座以及空调器
- 下一篇:一种自动放料机构
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理