[发明专利]结合生理模型和数据驱动模型的三维发音器官动画方法有效

申请号：	201310150819.1	申请日：	2013-04-26
公开（公告）号：	CN103218841A	公开（公告）日：	2013-07-24
发明（设计）人：	於俊;李贤;江辰;汪增福	申请（专利权）人：	中国科学技术大学
主分类号：	G06T13/20	分类号：	G06T13/20
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	杨学明;顾炜
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	结合生理模型数据驱动三维发音器官动画方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机图形学、智能人机交互等技术领域，具体涉及到一种结合了生理模型和数据驱动模型的三维发音器官动画方法，其是一种通过计算机技术虚拟出能反映真实生理特性和运动机理的三维发音器官，从而达到促进人机交互等目的的一种技术。

背景技术

随着具有较高性价比的电磁发音数据采集技术(Electro-Magnetic Articulography:EMA)的成熟，采集与语音同步的大量真实的三维发音器官运动数据成为可能。进而利用这些数据进行统计分析来得到在连续语音中发音器官的运动规律是很自然的想法。然而，由于传感器的限制，统计分析方法所合成的发音器官运动是稀疏的。

另一方面，发音器官的生理结构和运动机理是建模发音器官运动的本质方法，且基于它们建立的运动方程可以产生的稠密的发音器官运动。特别的，在连续语音中不可避免地发生发音器官之间的碰撞挤压等复杂运动，而对这些碰撞挤压现象采用统计分析方法是难以完成的。

所以将发音器官的生理结构和运动机理应用到连续语音中，并作为统计分析方法的有益补充是应对上述问题的有效措施。这也是本发明研究的出发点。

发明内容

本发明的目的在于：提供一种结合了生理模型和数据驱动模型的三维发音器官动画方法，其为基于发音器官的生理结构和运动机理，并结合与语音同步的大量真实的三维发音器官运动统计数据来构建三维虚拟发音器官动画的方法。

本发明采用的技术方案为：一种结合生理模型和数据驱动模型的三维发音器官动画方法，该方法基于核磁共振成像（MRI）得到的精细舌头三维几何模型，根据发音器官运动特性和声学特性的相关性，结合真实捕捉的运动数据和发音器官的生理运动机理，并采用多流隐马尔可夫模型建立的发音器官运动模型，该发音器官运动模型，其表现的动画与发音过程协调一致的同时，能够充分描述连续语音中的可视化协同发音现象，并且建立了发音器官之间的碰撞挤压模型，该碰撞挤压模型，其通过检测舌头的节点是否穿过口腔壁或牙齿来判断是否发生碰撞，并根据节点渗入的深度来计算回缩力，进而计算出挤压程度，从而高真实感地模拟了发音器官的运动特性；首先采集丰富的包含各种协同发音现象的语料库，并且同步地利用EMA传感器记录下三维发音器官上特征点的运动轨迹，接着通过训练上述数据集来建立能够描述连续语音中发音器官动态变化特性的、与发音过程协调一致的隐马尔可夫模型(Hidden Markov Model:HMM)，然后据此HMM能够根据输入语音信息来预测当前发音器官上特征点的运动，最后结合发音器官的生理结构和运动机理以及它们之间的碰撞挤压建模来完成发音器官的整体动画合成。

具体的步骤如下：

步骤1、建立舌头三维模型

首先根据核磁共振成像(Magnetic Resonance Imaging:MRI)技术采集得到的数据来得到一个精细化的舌头三维模型，并将它的舌根通过舌骨与骨骼模型中的下颌骨连接在一起，接着根据它的解剖原理得到对应的网格状结构，该结构在左右方向上采用五层网格；在上下方向上采用十一层网格组成，每一层的宽度几乎相等，它们从下颌骨的连接处成扇状散开至舌头的表面；在前后方向上，采用七层网格，从而舌头总共由240个六面体组成；

步骤2、数据采集与处理

为了有效地描述语言的发音特性和建模它的协同发音现象，所采集的数据集包括发音、对应的三维发音器官运动和音素级的时间同步信息，它的内容包括两个部分，第一部分对应的是以国际音标(International Phonetic Alphabet:IPA)形式表示的音素以及包含各个音素的单词；第二个部分对应的是包含各种协同发音现象的语句；

具体过程是，训练者在朗读数据集中发音语料的时候，利用录音设备录入音频，与此同时同步地利用EMA记录下三维发音器官的运动轨迹，并且利用语音识别工具或人工标注得到音素级的时间同步信息。在录制发音器官运动数据时，将10个传感器贴在头部某些位置来记录头部和发音器官的运动，其中，两侧耳后和鼻梁这三个参考点记为H1、H2和H3，其记录发音时头的旋转和平移运动；T1、T2和T3记录舌面上从舌尖到舌背上三个位置的运动；L1、L2、L3和L4分别记录左嘴角、上唇、下唇和右嘴角的运动，其中，T1、T2、T3和L1、L2、L3、L4记录得到的运动是头部运动和发音器官运动两者之和，以H1、H2和H3为依据，经过适当的旋转和平移可以得到T1、T2、T3和L1、L2、L3、L4在发音过程中的运动轨迹；

步骤3、基于HMM的发音器官运动合成

步骤3.1文本输入

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310150819.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T13-00 动画制作
G06T13-20 .3D［三维］动画
G06T13-80 .2D［二维］动画，如使用精灵sprites
G06T13-40 ..关于角色的，例如：人类、动物或虚幻人物
G06T13-60 ..关于自然景观的，例如：雨、雪、水或植物

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]结合生理模型和数据驱动模型的三维发音器官动画方法有效

专利文献下载