[发明专利]一种基于风格化的手势生成方法及生成系统在审

申请号：	202011200335.X	申请日：	2020-11-03
公开（公告）号：	CN112329593A	公开（公告）日：	2021-02-05
发明（设计）人：	不公告发明人	申请（专利权）人：	北京中科深智科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G10L13/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	100000 北京市丰台区航***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于风格手势生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于风格化的手势生成方法及生成系统，其中方法包括：以演讲者的身份信息、演讲音频信息、演讲语音文本以及演讲者的演讲手势为训练样本，训练形成一手势生成模型；通过手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征；输入语音文本；通过手势生成模型将所述语音文本生成为语音音频，然后将关联说话人的讲话节奏特征和手势姿态动作风格特征与生成的语音音频进行特征融合后，生成符合说话人的姿态动作风格和讲话风格的手势姿态。本发明相比传统的手势生成方法，不需要在语言和手势动作间建立映射关系，更加省时省力，而且基于风格化生成的手势姿态符合说话人的姿态动作风格和讲话风格，更加自然、逼真。

技术领域

本发明涉及人机交互技术领域，具体涉及一种基于风格化的手势生成方法和生成系统。

背景技术

人机交互、人机互动是一门研究系统和用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。近些年，随着人机交互技术的不断发展，人机交互的形式不再局限于语言和文字的人机交互，许多学者开始研究通过手势等人体姿态进行人机交互，以增强人机交互的互动体验。但由于缺乏对人类手势的理解，让机器实时生成类人的手势直接与人进行交流十分困难。现有的方式是，在语言和手势之间建立映射关系，以在机器输出某个语言时，自动匹配出该句语言对应的手势姿态并展示给用户。比如当向机器说声“你好”，机器根据设定程序输出交互答复词“你好”，并同时匹配出“你好”对应的手势姿态展示给用户。上述现有的手势生成方法需要在不同的语言和手势之间建立大量的映射关系，费时费力，而且匹配出的手势姿态缺乏说话者的姿态动作风格，输出的交互音频缺乏说话者独有的讲话节奏，导致人机交互过程过于“僵硬”、不自然。

发明内容

本发明的目的在于提供一种基于风格化的手势生成方法及生成系统，以解决上述技术问题。

为达此目的，本发明采用以下技术方案：

提供一种基于风格化的手势生成方法，包括：

步骤S1，以演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的演讲手势为训练样本，训练形成一手势生成模型；

步骤S2，通过所述手势生成模型获取说话人的讲话节奏特征和手势姿态动作风格特征；

步骤S3，输入语音文本；

步骤S4，通过所述手势生成模型将所述语音文本生成为语音音频，然后将步骤S2获取的关联所述说话人的所述讲话节奏特征和所述手势姿态动作风格特征与生成的所述语音音频进行特征融合后，生成符合所述说话人的姿态动作风格和讲话风格的手势姿态。

作为本发明的一种优选方案，所述步骤S1中，训练所述手势生成模型的方法包括如下步骤：

步骤L1，获取演讲视频数据集，并将所述演讲视频数据集划分为样本集和测试集；

步骤L2，提取或识别所述样本集中各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态；

步骤L3，以各所述演讲者的身份信息、演讲音频信息、演讲语音文本以及所述演讲者的手势姿态特征为训练样本，通过神经网络训练形成一手势生成初始模型；