[发明专利]语音驱动唇形动画的方法无效
申请号: | 200910263558.8 | 申请日: | 2009-12-24 |
公开(公告)号: | CN101751692A | 公开(公告)日: | 2010-06-23 |
发明(设计)人: | 章毅;王平安;周激流;郑伯川;吕建成;张蕾;彭德中;于佳丽;张海仙 | 申请(专利权)人: | 四川大学 |
主分类号: | G06T15/70 | 分类号: | G06T15/70;G06T13/00;G10L21/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 驱动 动画 方法 | ||
技术领域
本发明涉及三维人脸动画技术领域,具体涉及一种语音驱动唇形动画的方 法。
背景技术
唇形动画是人脸表情动画研究的重要内容之一,也是难点之一,人类的语 言具有多模态特性,说话人的声音以及唇部运动,即唇形的状态变化,共同影 响着他人对说话者的语音理解,这表明语音与唇形之间存在着一定的、自然的 联系。唇同步是音频流和视频流之间的一种时间映射关系,是指说话人的语音 与唇形运动状态之间的一种同步关系,采用映射模型是一种广泛使用且有效的 算法。
腾讯科技(深圳)有限公司申请的中国专利200910003083.9公开了一种语 音驱动嘴唇形状变化的方法、获取嘴唇动画的方法及装置,属于计算机技术领 域,该语音驱动嘴唇形状变化的方法包括:获取音频信号,根据所述音频信号的 特征得到嘴唇形状的运动幅度比例;获取初始的嘴唇形状模型,根据所述初始 的嘴唇形状模型和所述嘴唇形状的运动幅度比例生成嘴唇形状的运动幅度值; 根据所述嘴唇形状的运动幅度值和预先建立的嘴唇发音模型库,生成变化的嘴 唇形状网格模型集合。该方法可操作性较小,由于每个人的口型的形状大小不 同,同时说话时口型的运动幅度也有所不同,因此通过语音特征获取口型的运 动幅度的比例会产生一定的误差,而且此方法的实现较复杂。
中国专利CN100369469C(申请号200510093269.X)也公开了一种语音驱 动头部图像合成影音文件的方法,一种语音驱动头部图像合成影音文件的方法。 它包括取静态头部数码图像;提取头部、脸部及五官轮廓特征点数据坐标,并计算 图像动画模式数据;生成包括口形闭合帧、口形张开帧、表情帧以及三种类型图 像帧的各自数目在内的图像特征数据文件;采集语音数码信息;分析、提取语 音特征数据,生成包括有声音语音帧和无声音语音帧在内的语音特征数据文件; 将图像特征数据文件和语音特征数据文件同步合成,使得有声音语音帧对应口 形张开帧,无声音语音帧对应口形闭合帧,然后输出。该方法采用将图像特征 数据文件和语音特征数据文件同步合成的方法,由于图像特征的提取较为复杂, 很难达到实时性的要求,而且只区分出有音帧与无音帧对应的唇形,但没有考 虑到语音中噪音的情况,很可能把噪音当作有音帧来处理而发生错误。
中国专利申请200510086646.7也公开一种基于动态基元选取的语音驱动人 脸动画方法,将输入的任何用户的任何语言的语音转换成语音和三维人脸动画的 同步输出。此方法基于采用运动实时捕获系统建立的多模态数据库,对多模态数 据进行音视频分析,分别获得相应的特征向量;以音素为基元单位对多模态数 据进行同步分割;对用户给定的语音序列,计算每个基元的音频匹配误差和前 后基元间的视觉匹配误差,最后在候选的基元中动态地选择一条最佳路径,输出 与语音序列同步的人脸动画参数序列,以驱动三维人脸动画模型。该方法用于 处理任何语言的语音与唇形动画的同步情况,由于每种语言的发音规律与发音 特征各不相同,很难有一个同一的标准处理方法,而且以此方法每个基元的音 频匹配误差和前后基元间的视觉匹配误差,产生的这么误差会很大,从候选的基 元中动态地选择一条最佳路径有可能不是最佳路径。
发明内容
本发明所要解决的问题是:如何提供一种语音驱动唇形动画的方法,该方法 克服了现有技术的缺陷,并且运算数据量小,可操做性强等特点。
本发明所提出的技术问题是这样解决的:提供一种语音驱动唇形动画的方 法,其特征在于,包括以下步骤:
步骤一将汉语中的音节结构采用Consonant-Vowel分类:声母包括b、p、 m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s和零声母,韵 母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、 ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、 uo、v、van、ve、vn、io;
步骤二采集若干个人的原始音频数据和视频数据:每个人读声母和韵母单 词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据;
步骤三获取对应唇形信息:把视频流分割成一帧帧图片,找出声母与韵母 所对应的图片帧,使用ASM算法对正面的人脸图片进行检测,获取声母和韵母 所对应的唇形信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910263558.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子束灭菌方法
- 下一篇:从机械机器操作模型中自动推导逻辑控制器行为模型