[发明专利]基于协同过滤算法的实时语音驱动人脸唇部同步动画系统无效
申请号: | 201010263097.7 | 申请日: | 2010-08-25 |
公开(公告)号: | CN101930619A | 公开(公告)日: | 2010-12-29 |
发明(设计)人: | 陶建华;穆凯辉;车建峰 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06T13/00 | 分类号: | G06T13/00;G10L19/00;G10L15/28;H04N7/26 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 梁爱荣 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 协同 过滤 算法 实时 语音 驱动 唇部 同步 动画 系统 | ||
技术领域
本发明涉及一种语音驱动人脸动画系统,具体地涉及基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。
背景技术
和谐人机交互技术一直都是人们关注的对象,语音驱动的人脸唇部动画技术是其重要组成部分,它能够对一个人的声音进行处理,使之在合成的人脸头像上进行与语音同步的人脸唇部动画,其研究成果对人脸动画、人机对话等方向的发展具有重要的意义。而目前已有的大多数人脸语音同步唇部动画技术一般基于语音识别技术,这种技术必须首先进行语音识别,从得出的音素出发来形成相应的视位。视位是与语音的音素相对应的关键嘴型。连续的视位拼接起来即可形成人脸唇部动画。由于目前语音识别本身的识别率比较低,速度也比较慢。与之相比,直接从语音得到动画参数的方法会更加有效。
发明内容
为了解决现有技术问题,本发明的目的是采用基于样本的语音驱动唇部动画方法,能够实现连续语音帧到唇部动画帧的同步转换。其优点是能够在唇部动画时保留语音的时间和能量结构信息,唇部动画能很好体现原始语音的韵律变化。另外该系统易于在与MPEG-4兼容的头像模型间进行移植,可以进行男女声的语音驱动唇部动画;本发明的系统易于实现,录制的双模态语音动画数据库不需要人工标注。系统能根据算法产生库中不存在的动画参数,使得系统有着丰富的表现力;为此,本发明构建一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统。
为实现上述目的,本发明的一种基于协同过滤算法的实时语音驱动人脸唇部同步动画系统包括音视频编码模块、协同过滤模块和人脸动画模块,其中:
利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画;
在离线过程中,首先利用多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息;音视频编码模块的输入端接收来自多模态数据采集设备采集到的语音和人脸三维特征点运动信息,对其中的语音信息和人脸三维特征点运动信息分别进行Mel频率倒谱参数(MFCC)编码和人脸动画参数(FAP)编码;在实时过程中,音视频编码模块的输入端接收来自数字录音设备实时录制的语音信息;音视频编码模块具有一输出端,在离线过程中输出MFCC-FAP多模态同步库;在实时过程中输出语音的Mel频率倒谱参数;
协同过滤模块与音视频编码模块连接,协同过滤模块输入端接收来自于音频编码模块生成的Mel频率倒谱参数、音视频编码模块生成Mel频率倒谱参数和人脸动画参数多模态同步库中的多模态数据;协同过滤模块具有一输出端输出使用协同过滤算法实时生成与输入语音同步的人脸动画参数;
人脸动画模块与协同过滤模块连接,人脸动画模块输入端接收来自于协同过滤模块生成的人脸动画参数,将这些人脸动画参数转化成人脸模型的运动信息;人脸动画模块具有一输出端输出人脸动画参数,并由人脸动画参数驱动二维或三维人脸模型进行人脸唇部动画。
其中:所述音视频编码模块包括音频编码子模块、Mel频率倒谱参数归一化处理子模块、视频编码子模块以及MFCC-FAP同步处理子模块,其中:
音频编码子模块,其输入端接收由多模态数据采集设备同步录制的语音信息,对语音信息进行语音信号的Mel频率倒谱参数编码;
Mel频率倒谱参数归一化子模块与音频编码子模块连接,对音频进行编码,所述编码的过程应用于离线过程中对多模态数据中的语音信息进行的编码,也用于实时过程中对录入语音信息进行编码;
视频编码子模块,其输入端接收由多模态数据采集设备同步录制的人脸三维特征点运动信息、记录了标定好的人脸三维特征点位置的变化,对这些位置信息进行人脸动画参数编码;
MFCC-FAP同步处理模块分别与Mel频率倒谱参数归一化子模块和视频编码子模块相连接,MFCC-FAP同步处理模块同步接收离线过程中对录入语音信息的编码及人脸动画参数编码;从而形成Mel频率倒谱参数和人脸动画参数多模态同步库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010263097.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:防刺探取款机键盘
- 下一篇:基于变形垂足曲线的人脸轮廓提取方法