[发明专利]维吾尔语音位-视位参数的转换方法和系统有效

申请号：	201610675541.3	申请日：	2016-08-16
公开（公告）号：	CN106328163B	公开（公告）日：	2019-07-02
发明（设计）人：	赵晖;刘学杰;秦添	申请（专利权）人：	新疆大学
主分类号：	G10L21/10	分类号：	G10L21/10
代理公司：	吉林长春新纪元专利代理有限责任公司 22100	代理人：	王怡敏
地址：	830046 新疆维吾尔自治区乌***	国省代码：	新疆;65
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种维吾尔语音位‑视位参数的转换方法和系统，属于语音‑人脸动画信息处理技术领域。增加了41个特征和齿与舌的可见度特征，对元音口形数据聚类得到元音基本静态视位集。分别对辅音与不同元音相结合的口形数据聚类，得到了辅音基本静态视位集。并在此基础上，提出了复合视位的概念，建立了维吾尔语基本动态视位集。然后，给出了复合动态视位模型，以及基于线性回归算法的动态视位模型参数估计方法，从而实现了维吾尔语音位‑视位的转换。根据本发明的基本动态视位集及其模型参数，对于待转换的维吾尔语文本，进行文本分析后，得到文本所包含的基本动态视位序列，进而可以生成与文本内容一致的人脸唇部可视语音动画。
搜索关键词：	视位音位元音转换视位参数数据聚类辅音口形语音文本模型参数估计线性回归算法信息处理技术复合动态模型参数人脸动画视位序列文本分析文本内容唇部可视人脸复合
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种维吾尔语音位‑视位参数的转换方法，其特征在于：包括如下步骤：(1)、选择维吾尔语全部元音V，元音+辅音VC，辅音+元音CV，辅音+元音+辅音+辅音CVCC作为录像录音的语音系列；(2)选择发音标准的维吾尔语录制人，在读出上述的语音系列时，同步录制人脸正面和侧面图像及语音；(3)从录制的音视频中确定维吾尔语静态视位抽取时刻；(4)选择并扩展MPEG‑4，以描述维吾尔语视位；(5)定义维吾尔语静态视位用于聚类分析特征集合；(6)采用K均值聚类算法，分别将维吾尔语音节V，CV，和VC分类，根据聚类结果，得到维吾尔语元音基本静态视位集和辅音基本静态视位集；(7)根据维吾尔语基本静态视位集，确定维吾尔语的基本动态视位集为13个单音素视位和74个复合视位组成；由于辅音与元音结合为音节时，协同发音现象较为复杂，难以用单辅音和单元音的融合来准确描述其口形动态变化过程；因此，提出了复合视位的概念，将CV和VC音节作为基本动态视位；在分析静态视位时，将元音分为6类，辅音分为7类，因此，CV和VC复合视位中的C和V分别为7类和6类；还有些元音和辅音的组合不存在，这样复合视位共74类，现列如下：#0 NA，口形自然闭合状态，(8)建立用于描述维吾尔语单音素动态视位和复合动态视位对应的FAP参数变化过程的动态视位模型；单音素动态视位模型由一个元音或辅音控制权值函数和左右无声模型控制函数组成；复合动态视位模型由一个元音和一个辅音控制权值函数和左右无声模型控制函数组成；为简化参数计算，将动态视位模型设为分段函数，每段函数由相邻二个控制权值函数组成；其中，元音控制权值函数为：辅音控制权值函数为：或或左无声控制权值函数：右无声控制权值函数：其中各参数的含义如下：T_ipv元音视位在控制权值中心时刻的视位参数值；α_ipv元音视位模型的控制权值幅度；θ_ipv(‑)元音控制权值增加的速度；θ_ipv(+)元音控制权值衰减的速度；t_ci语音段的中心时刻；t_ifp语音段中心时刻t_ci到元音权值中心时刻的距离；T_ipc辅音视位在控制权值中心时刻的视位参数值；α_ipc辅音视位模型的控制权值幅度；θ_ipc(‑)辅音控制权值增加的速度；θ_ipc(+))辅音控制权值衰减的速度；t_si语音段的起始时刻；t_iip语音段起始时刻t_si到辅音权值中心时刻的距离或语音段结束时刻t_ei到辅音权值中心时刻的距离；α_lp左无声模型的控制权值幅度；α_rp右无声模型的控制权值幅度；θ_lp左无声模型控制权值衰减的速度；θ_rp右无声模型控制权值增加的速度；t_ei语音段的结束时刻；t_lp语音段起始时刻t_si到左无声模型中心时刻的距离；t_rp语音段的结束时刻t_ei到右无声模型中心时刻的距离；(8.1)单音素——元音或辅音，视位模型由有声模型及左、右无声模型构成；单音素动态视位模型分为两段，如下所示，其中每段视位参数曲线由两个权值函数组成；对于辅音视位的权值函数由以下两段构成：其中T_ipc为辅音视位在控制权值中心时刻的视位参数值对于元音视位的权值函数由以下两段构成：其中T_ipv为元音视位在控制权值中心时刻的视位参数值(8.2)复合视位模型——CV类或VC类，由元音和辅音模型及左、右无声模型构成；复合动态视位模型分为三段，如下所示，其中每段视位参数曲线也由两个权值函数组成；对于CV类复合视位权值函数由以下三段构成：FAP_cv1(t)＝FAP_c1(t)FAP_cv3(t)＝FAP_v2(t)对于VC类复合视位权值函数由以下三段构成：FAP_vc1(t)＝FAP_v1(t)(8.3)在连续语流中，各个视位的口形受到其周围视位的影响，最终的FAP参数可以由各个FAP参数按基本控制权值函数值加权得到：其中，i包含有声模型和左、右无声模型，I为本时段连续语流所涉及有声及无声模型总个数；J只包含连续语流中有声模型总个数；T_ip为对应有声模型权值中心时刻的FAP值；(9)动态视位模型参数的确定87个基本动态视位对应的动态视位模型参数的获取方法是：首先，对87个动态视位所对应的V，CV，VC及CVCC进行发音录像；然后，取CVCC音节的最后一个辅音C的口形作为单辅音的口形，并经过手动或自动测量得到实际发音过程中的65个FAP参数曲线；再依次对每个视位的65个FAP参数曲线对应的动态视位模型参数进行估算，即每个动态视位对应的65个动态视位模型；如前面所述，将动态视位模型设计为分段函数，每段包含二个控制权值函数，并设计了控制参数，以减少对应权值函数对下一段FAP参数取值的影响，C和CV类控制参数设计如下：表示左无声模型在第一段结束时刻控制权值函数值；表示辅音模型在0时刻的控制权值函数值；表示元音模型在CV类第二段起始时刻的控制权值函数值；表示辅音模型在C类或CV类第二段结束时刻的控制权值函数值；表示元音模型在CV类第三段结束时刻的控制权值函数值；表示右无声模型在C类第二段起始时刻或CV类第三段起始时刻的控制权值函数值；V和VC控制参数如下：表示左无声模型在第一段结束时刻控制权值函数值；表示元音模型在0时刻的控制权值函数值；表示辅音模型在VC类第二段起始时刻的控制权值函数值；表示元音模型在V类或VC类第二段结束时刻的控制权值函数值；表示辅音模型在VC类第三段结束时刻的控制权值函数值；表示右无声模型在V类第二段起始时刻或VC类第三段起始时刻的控制权值函数值；如以上所述可以看出，动态视位模型分段函数中有两种类型的分段，分别如下：第一种为：第二种为：下面分别以和为例，分析分段函数的性质；由可得令θ_lp+θ_ipc(‑)＝c₁则有y₁(t)＝b₁‑c₁t由可得：令θ_ipc(+)+θ_ipv(‑)＝c₂则有y₂(t)＝b₂‑c₂t分段函数在对数空间为线性函数，参数θ_lp与θ_ipc(‑)或θ_ipc(+)与θ_ipv(‑)之和取负为直线斜率，其它参数与直线的截距有关；但是，FAP曲线的拟合精度仅由直线的斜率和截距来决定，即在保证直线的斜率和截距不变的情况下，参数的取值不影响曲线拟合精度；因此，参数估计可以分两步：首先，在对数空间采用线性回归算法求取直线斜率和截距以获得较高的曲线拟合精度；然后，再在参数取值范围内，对参数取值并使控制参数ε取值较小，以保证各段连接处曲线的光滑性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于新疆大学，未经新疆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201610675541.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]维吾尔语音位-视位参数的转换方法和系统有效

专利文献下载