[发明专利]一种语音动画生成方法及系统有效

申请号：	200910203660.9	申请日：	2009-06-09
公开（公告）号：	CN101923726A	公开（公告）日：	2010-12-22
发明（设计）人：	董兰芳;倪奎;王亚涛;覃景繁	申请（专利权）人：	华为技术有限公司;中国科学技术大学
主分类号：	G06T13/00	分类号：	G06T13/00
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	彭愿洁;李文红
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音动画生成方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及图像处理技术领域，特别涉及一种语音动画生成方法及系统。

背景技术

自然语言和肢体语言是人类相互交流的主要方式。在肢体语言中，人脸是人类相互交流的重要渠道，因此语音和人脸是人类相互交流的两种最重要的渠道。语音动画技术就是将人脸动画技术与语音处理技术相结合，用计算机生成语音与口型同步播出的动画技术，也称为“说话的头像”或“对口型”。

语音动画技术包括基于单幅图像的语音动画技术。基于单幅图像的语音动画技术的工作流程为：输入一张人脸图像，在所述人脸图像上自动或手工标记特征点，保存成面部特征点的位置数据文件；输入语音文件，对所述语音文件进行语音识别，生成音素-时间戳文件并保存；根据所述语音文件的音素-时间戳文件对所述人脸图像采用图像变形技术实现人脸图像的变形，达到变形图像与语音文件的同步，使得一边播放语音，一边驱动图像上的人脸进行动画。基于单幅图像的语音动画技术还可应用于动物脸图像或卡通形象的脸图像。

在基于单幅图像的语音动画技术中，图像变形技术是其核心技术。现有的图像变形技术一般采用基于网格扭曲的图像变形算法。

基于网格扭曲的图像变形算法通过对面部图像进行网格划分，形成一张网状的面罩，再对面部图像进行图像变形，产生人脸动画。基于网格扭曲的图像变形算法主要用于两张面部图像之间的形状变形，两张面部图像分别为源图像I_S和目标图像I_T。其中，源图像I_S与网格M_S相对应，目标图像I_T与网格M_T相对应；如图1所述，网格M_S指定了控制点的坐标，网格M_T指定了网格M_S中控制点在目标图像I_T中的对应位置。网格M_S和网格M_T一起用于定义空间转变，所述空间转变将源图像I_S中所有控制点映射到目标图像I_T上去，实现源图像I_S到目标图像I_T的图像变形。