[发明专利]基于协同过滤算法的实时语音驱动人脸唇部同步动画系统无效
申请号: | 201010263097.7 | 申请日: | 2010-08-25 |
公开(公告)号: | CN101930619A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 陶建华;穆凯辉;车建峰 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06T13/00 | 分类号: | G06T13/00;G10L19/00;G10L15/28;H04N7/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协同 过滤 算法 实时 语音 驱动 唇部 同步 动画 系统 | ||
1.一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于包括音视频编码模块、协同过滤模块和人脸动画模块,其中:
利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;
在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;
协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;
人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。
2.根据权利要求1所述的基于协同过滤算法的实时语音驱动人脸唇部同步动画系统,其特征在于:所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块,其中:
音频编码子模块,其输入端接收由多模态数据采集设备同步录制的语音信息,对语音信息进行语音信号的Mel频率倒谱参数编码;
Mel频率倒谱参数归一化子模块与音频编码子模块连接,对音频进行编码,所述编码的过程应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对录入语音信息进行编码;
视频编码子模块,其输入端接收由多模态数据采集设备同步录制的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画参数编码;
MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模块相连接,MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画参数编码;从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010263097.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:防刺探取款机键盘
- 下一篇:基于变形垂足曲线的人脸轮廓提取方法