[发明专利]一种基于风格化的手势生成方法及生成系统在审
申请号: | 202011200335.X | 申请日: | 2020-11-03 |
公开(公告)号: | CN112329593A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京中科深智科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市丰台区航*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 风格 手势 生成 方法 系统 | ||
本发明公开了一种基于风格化的手势生成方法及生成系统,其中方法包括:以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本,训练形成一手势生成模型;通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;输入语音文本;通过手势生成模型将所述语音文本生成为语音音频,然后将关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后,生成符合说话人的姿态动作风格和讲话风格的手势姿态。本发明相比传统的手势生成方法,不需要在语言和手势动作间建立映射关系,更加省时省力,而且基于风格化生成的手势姿态符合说话人的姿态动作风格和讲话风格,更加自然、逼真。
技术领域
本发明涉及人机交互技术领域,具体涉及一种基于风格化的手势生成方法和生成系统。
背景技术
人机交互、人机互动是一门研究系统和用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。近些年,随着人机交互技术的不断发展,人机交互的形式不再局限于语言和文字的人机交互,许多学者开始研究通过手势等人体姿态进行人机交互,以增强人机交互的互动体验。但由于缺乏对人类手势的理解,让机器实时生成类人的手势直接与人进行交流十分困难。现有的方式是,在语言和手势之间建立映射关系,以在机器输出某个语言时,自动匹配出该句语言对应的手势姿态并展示给用户。比如当向机器说声“你好”,机器根据设定程序输出交互答复词“你好”,并同时匹配出“你好”对应的手势姿态展示给用户。上述现有的手势生成方法需要在不同的语言和手势之间建立大量的映射关系,费时费力,而且匹配出的手势姿态缺乏说话者的姿态动作风格,输出的交互音频缺乏说话者独有的讲话节奏,导致人机交互过程过于“僵硬”、不自然。
发明内容
本发明的目的在于提供一种基于风格化的手势生成方法及生成系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种基于风格化的手势生成方法,包括:
步骤S1,以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本,训练形成一手势生成模型;
步骤S2,通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征;
步骤S3,输入语音文本;
步骤S4,通过所述手势生成模型将所述语音文本生成为语音音频,然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后,生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。
作为本发明的一种优选方案,所述步骤S1中,训练所述手势生成模型的方法包括如下步骤:
步骤L1,获取演讲视频数据集,并将所述演讲视频数据集划分为样本集和测试集;
步骤L2,提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L3,以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本,通过神经网络训练形成一手势生成初始模型;
步骤L4,提取或识别所述测试集中的演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态;
步骤L5,将所述步骤L4提取或识别的所述演讲者的身份信息、演讲音频信息和演讲语音文本输入到所述手势生成初始模型中,所述手势生成初始模型生成手势姿态;
步骤L6,将所述手势生成初始模型生成的手势姿态与所述步骤L4提取或识别的关联所述演讲者的原始手势姿态进行姿态比对,并根据比对结果调整所述神经网络训练所述手势生成模型的网络参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科深智科技有限公司,未经北京中科深智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011200335.X/2.html,转载请声明来源钻瓜专利网。