[发明专利]基于数字人表情、嘴型及声音同步的用户跨平台交流方法有效
申请号: | 202010147364.8 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111372113B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 孙伟;张赐;陈德陆 | 申请(专利权)人: | 成都威爱新经济技术研究院有限公司 |
主分类号: | H04N21/43 | 分类号: | H04N21/43;H04N21/4788;H04N21/234;H04L29/06;G06T13/80 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 李蕊 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 数字 表情 声音 同步 用户 平台 交流 方法 | ||
1.基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,包括以下步骤:
S1、根据数据采集设备采集第一用户的面部表情及嘴型信息和声音信息,对其添加同步标签;
S2、将添加了同步标签的面部表情及嘴型信息和声音信息上传至云渲染服务器,根据其接收信息驱动数字虚拟人并进行实时渲染;
S3、通过云渲染服务器对渲染后的图像和第一用户声音进行编码压缩,并发送至第二用户的浏览器;
S4、通过第二用户的浏览器对接收到的编码压缩后的图像和第一用户声音进行解码,实时查看数字虚拟人的表情、嘴型及声音信息;
S5、重复步骤S1~S4,通过数字虚拟人在第一用户和第二用户之间建立互动交流,实现用户跨平台交流;
所述S1的步骤中,添加同步标签的方法具体为:
A1、当第一用户与第二用户之间有交流需求时,通过数据采集设备采集第一用户的表情、嘴型和声音信息,并将其缓存为面部表情及嘴型数据和声音数据;
A2、判断第一用户发出的语音是否有停顿;
若是,则进入步骤A3;
若否,则返回步骤A1;
A3、对当前语音对应的缓存面部表情及嘴型数据和声音数据添加同步开始标签和同步结束标签。
2.根据权利要求1所述的基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,所述A3具体为:
A31、在数据采集设备缓存的第一用户的所有面部表情中,假设其对应的嘴型动作有k个,且嘴巴在自然闭合状态下的姿态为N,在所有打开状态下的姿态为P,根据其中间状态M确定嘴型动作变形参数ti:
其中,中间状态M为:
式中,ti为第i个嘴型动作变形参数,且ti∈[0,1];
Pi为第i个嘴巴打开的姿态;
A32、根据云渲染服务器中数字虚拟人的面部表情及嘴型动画制作情况,设置ti阈值为:
t={0.1,0.12,…,0.2}
A33、当检测到数据采集设备中缓存的第一用户当前所有面部表情及嘴型信息的所有ti均满足设置阈值时,在对应的面部表情及嘴型信息和声音信息中处添加开始同步标签;
当检测到数据采集设备中缓存的第一用户当前所有面部表情及嘴型信息的所有ti均为0时,在对应的面部表情及嘴型信息和声音信息处均添加结束同步标签。
3.根据权利要求1所述的基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,所述S2具体为:
S21、通过云渲染服务器将接收到的添加了同步标签的面部表情及嘴型信息和声音信息进行缓存;
S22、对当前缓存的面部表情及嘴型信息和声音信息进行同步标签检查,判断是否有相同的开始同步标签和结束同步标签;
若是,则进入步骤S23;
若否,则返回步骤S21;
S23、根据具有相同的开始同步标签和结束同步标签的缓存信息,对数字虚拟人的表情动作、嘴型动作和声音动作进行驱动,并进行实时渲染。
4.根据权利要求1所述的基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,所述S3的步骤中通过NVENC进行硬件实时加速视频编码,并使用H.264编码格式对音视频进行编码压缩。
5.根据权利要求1所述的基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,所述S3的步骤中,通过RTC协议将编码压缩的音视频信息发送至第二用户的浏览器端。
6.根据权利要求5所述的基于数字人表情、嘴型及声音同步的用户跨平台交流方法,其特征在于,所述S3的步骤中,第二用户的浏览器端为支持WebRTC协议的浏览器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都威爱新经济技术研究院有限公司,未经成都威爱新经济技术研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010147364.8/1.html,转载请声明来源钻瓜专利网。