[发明专利]结合生理模型和数据驱动模型的三维发音器官动画方法有效
申请号: | 201310150819.1 | 申请日: | 2013-04-26 |
公开(公告)号: | CN103218841A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 於俊;李贤;江辰;汪增福 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06T13/20 | 分类号: | G06T13/20 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 生理 模型 数据 驱动 三维 发音器官 动画 方法 | ||
技术领域
本发明涉及计算机图形学、智能人机交互等技术领域,具体涉及到一种结合了生理模型和数据驱动模型的三维发音器官动画方法,其是一种通过计算机技术虚拟出能反映真实生理特性和运动机理的三维发音器官,从而达到促进人机交互等目的的一种技术。
背景技术
随着具有较高性价比的电磁发音数据采集技术(Electro-Magnetic Articulography:EMA)的成熟,采集与语音同步的大量真实的三维发音器官运动数据成为可能。进而利用这些数据进行统计分析来得到在连续语音中发音器官的运动规律是很自然的想法。然而,由于传感器的限制,统计分析方法所合成的发音器官运动是稀疏的。
另一方面,发音器官的生理结构和运动机理是建模发音器官运动的本质方法,且基于它们建立的运动方程可以产生的稠密的发音器官运动。特别的,在连续语音中不可避免地发生发音器官之间的碰撞挤压等复杂运动,而对这些碰撞挤压现象采用统计分析方法是难以完成的。
所以将发音器官的生理结构和运动机理应用到连续语音中,并作为统计分析方法的有益补充是应对上述问题的有效措施。这也是本发明研究的出发点。
发明内容
本发明的目的在于:提供一种结合了生理模型和数据驱动模型的三维发音器官动画方法,其为基于发音器官的生理结构和运动机理,并结合与语音同步的大量真实的三维发音器官运动统计数据来构建三维虚拟发音器官动画的方法。
本发明采用的技术方案为:一种结合生理模型和数据驱动模型的三维发音器官动画方法,该方法基于核磁共振成像(MRI)得到的精细舌头三维几何模型,根据发音器官运动特性和声学特性的相关性,结合真实捕捉的运动数据和发音器官的生理运动机理,并采用多流隐马尔可夫模型建立的发音器官运动模型,该发音器官运动模型,其表现的动画与发音过程协调一致的同时,能够充分描述连续语音中的可视化协同发音现象,并且建立了发音器官之间的碰撞挤压模型,该碰撞挤压模型,其通过检测舌头的节点是否穿过口腔壁或牙齿来判断是否发生碰撞,并根据节点渗入的深度来计算回缩力,进而计算出挤压程度,从而高真实感地模拟了发音器官的运动特性;首先采集丰富的包含各种协同发音现象的语料库,并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹,接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型(Hidden Markov Model:HMM),然后据此HMM能够根据输入语音信息来预测当前发音器官上特征点的运动,最后结合发音器官的生理结构和运动机理以及它们之间的碰撞挤压建模来完成发音器官的整体动画合成。
具体的步骤如下:
步骤1、建立舌头三维模型
首先根据核磁共振成像(Magnetic Resonance Imaging:MRI)技术采集得到的数据来得到一个精细化的舌头三维模型,并将它的舌根通过舌骨与骨骼模型中的下颌骨连接在一起,接着根据它的解剖原理得到对应的网格状结构,该结构在左右方向上采用五层网格;在上下方向上采用十一层网格组成,每一层的宽度几乎相等,它们从下颌骨的连接处成扇状散开至舌头的表面;在前后方向上,采用七层网格,从而舌头总共由240个六面体组成;
步骤2、数据采集与处理
为了有效地描述语言的发音特性和建模它的协同发音现象,所采集的数据集包括发音、对应的三维发音器官运动和音素级的时间同步信息,它的内容包括两个部分,第一部分对应的是以国际音标(International Phonetic Alphabet:IPA)形式表示的音素以及包含各个音素的单词;第二个部分对应的是包含各种协同发音现象的语句;
具体过程是,训练者在朗读数据集中发音语料的时候,利用录音设备录入音频,与此同时同步地利用EMA记录下三维发音器官的运动轨迹,并且利用语音识别工具或人工标注得到音素级的时间同步信息。在录制发音器官运动数据时,将10个传感器贴在头部某些位置来记录头部和发音器官的运动,其中,两侧耳后和鼻梁这三个参考点记为H1、H2和H3,其记录发音时头的旋转和平移运动;T1、T2和T3记录舌面上从舌尖到舌背上三个位置的运动;L1、L2、L3和L4分别记录左嘴角、上唇、下唇和右嘴角的运动,其中,T1、T2、T3和L1、L2、L3、L4记录得到的运动是头部运动和发音器官运动两者之和,以H1、H2和H3为依据,经过适当的旋转和平移可以得到T1、T2、T3和L1、L2、L3、L4在发音过程中的运动轨迹;
步骤3、基于HMM的发音器官运动合成
步骤3.1文本输入
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310150819.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:接针装置
- 下一篇:基于核传播的遥感图像变化检测方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置