[发明专利]人体模型的控制方法、装置、电子设备以及存储介质有效

申请号：	201910344538.7	申请日：	2019-04-26
公开（公告）号：	CN110046457B	公开（公告）日：	2021-02-05
发明（设计）人：	周波;曾宏生;王凡;何径舟	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G06F30/20	分类号：	G06F30/20;G06F111/10
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	宋合成
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	人体模型控制方法装置电子设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质，其中，方法包括：通过获取用于指示人体模型状态的特征信息，将特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息，采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分，根据评分，从各策略网络输出的控制信息中确定目标控制信息，根据目标控制信息，控制人体模型。由于行走模型相比现有技术中的强化学习算法，具有数据利用率高、鲁棒性强的特点，因此，通过行走模型的多个价值网络对每一个策略网络输出的控制信息进行评分，进而根据评分确定的目标控制信息控制人体模型，能够更加准确的控制人体模型，从而使得人体模型保持正常的姿态行走。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种人体模型的控制方法、装置、电子设备以及存储介质。

背景技术

随着计算机技术的快速发展，采用计算机软件对人体肌肉骨骼模型进行建模仿真成为一种主流。经过多年的发展，国外的专家学者先后开发出SIMM、AnyBody、LifeMod(与Adams无缝连接)、OpenSim和MSMS等人体运动分析仿真软件。

近年来，随着强化学习和深度学习的发展，出现了基于连续控制的强化学习算法，训练一个深度神经网络的策略模型来预测控制向量。例如Off-Policy类别的深度确定性策略梯度算法(Deep Deterministic Policy Gradient，简称DDPG)，或On-Policy类别的近端策略优化算法(Proximal Policy Optimization，简称PPO)。但是，现有的强化学习算法在人体模型训练时，存在鲁棒性差、样本利用低等缺点。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请提出一种人体模型的控制方法、装置、电子设备以及存储介质，以解决现有技术中对人体模型训练的强化学习算法存在鲁棒性差、样本利用低的技术问题。

本申请第一方面实施例提出了一种人体模型的控制方法，包括：

获取用于指示人体模型状态的特征信息；

将所述特征信息输入行走模型的多个策略网络，得到各策略网络输出的控制信息；所述多个策略网络在训练过程中采用了不同的学习率；

采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分；所述评分，用于指示采用相应控制信息进行控制后的人体模型符合设定行进速度的概率；

根据所述评分，从各策略网络输出的控制信息中确定目标控制信息；

根据所述目标控制信息，控制人体模型。

作为本申请第一种可能的实现方式，所述价值网络为多个，所述多个价值网络在训练过程中采用了不同的学习率；

所述采用行走模型的价值网络对每一个策略网络输出的控制信息进行评分，包括：

将所述特征信息、一个控制信息以及所述设定行进速度作为输入信息，输入所述多个价值网络中，得到各价值网络对相应控制信息的评分。