[发明专利]一种基于风格化的手势生成方法及生成系统在审
申请号: | 202011200335.X | 申请日: | 2020-11-03 |
公开(公告)号: | CN112329593A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京中科深智科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市丰台区航*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 风格 手势 生成 方法 系统 | ||
1.一种基于风格化的手势生成方法,其特征在于,包括:
步骤S1,以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
步骤S2,通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;
步骤S3,输入语音文本;
步骤S4,通过所述手势生成模型将所述语音文本生成为语音音频,然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后,生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
2.根据权利要求1所述的基于风格化的手势生成方法,其特征在于,所述步骤S1中,训练所述手势生成模型的方法包括如下步骤:
步骤L1,获取演讲视频数据集,并将所述演讲视频数据集划分为样本集和测试集;
步骤L2,提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L3,以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过神经网络训练形成一手势生成初始模型;
步骤L4,提取或识别所述测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L5,将所述步骤L4提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,所述手势生成初始模型生成手势姿态;
步骤L6,将所述手势生成初始模型生成的手势姿态与所述步骤L4提取或识别的关联所述演讲者的原始手势姿态进行姿态比对,并根据比对结果调整所述神经网络训练所述手势生成模型的网络参数;
步骤L7,根据调整后的所述网络参数,对所述手势生成初始模型进行更新训练,最终训练形成所述手势生成模型。
3.根据权利要求2所述的基于风格化的手势生成方法,其特征在于,所述步骤L6中,比对手势姿态的方法为计算模型生成的手势姿态和所述原始手势姿态间的身体关节位置的误差。
4.根据权利要求2所述的基于风格化的手势生成方法,其特征在于,所述步骤S4中,所述手势生成模型生成符合所述说话人姿态动作风格和讲话风格的手势姿态的方法包括:
所述手势生成模型通过一编码器从所述说话人的音频信息中提取所述说话人的讲话节奏特征;
所述手势生成模型基于所述说话人的身份信息,生成所述说话人的手势姿态动作风格特征;
所述手势生成模型基于所述说话人的所述说话语音文本生成语音音频;
所述手势生成模型将提取的所述讲话节奏特征融合到所生成的所述语音音频中,然后将将已融合了所述讲话节奏特征的所述语音音频与生成的关联所述说话人的所述手势姿态动作风格特征进行进一步的特征融合,最终生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
5.一种基于风格化的手势生成系统,可实现如权利要求1-4任意一项所述的手势生成方法,其特征在于,包括:
手势生成模型训练模块,用于以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
说话人音频信息和身份信息获取模块,用于获取说话人的音频信息和身份信息;
语音文本输入模块,用于输入所述说话人的说话语音文本;
手势姿态生成模块,连接所述语音文本输入模块、所述说话人音频信息和身份信息获取模块以及所述手势生成模型训练模块,用于以所述说话人的音频信息、身份信息以及所述说话语音文本为说话人的三模态输入到所述手势生成模型中,所述手势生成模型生成符合说话人姿态动作风格和讲话风格的手势姿态。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司,未经北京中科深智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011200335.X/1.html,转载请声明来源钻瓜专利网。