[发明专利]基于声道动作知识库改进的DIVA神经网络模型发音方法有效

申请号：	201310274341.3	申请日：	2013-07-02
公开（公告）号：	CN103310272A	公开（公告）日：	2013-09-18
发明（设计）人：	张少白;徐歆冰	申请（专利权）人：	南京邮电大学
主分类号：	G06N3/00	分类号：	G06N3/00
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	许方
地址：	210003 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于声道动作知识库改进 diva 神经网络模型发音方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种发音方法,尤其是基于声道动作知识库改进的DIVA神经网络模型发音方法。

背景技术

神经计算学语音模型（Neuro-computational speech model）是用计算机仿真实现语音生成、感知和获取等一系列复杂过程的模型。神经计算学语音模型的组成十分复杂，至少包括一个认知部分、一个运动处理部分和一个感官处理部分：认知部分的作用是在语音生成和语音感知阶段产生神经激活（或产生音素表征）；运动处理部分开始于根据产生音素表征激活规划运动，结束于特定音素项对应的发音器官运动；感官处理部分包括根据外部声音信号产生相应的听觉表征并激活相应的音素表征。

到目前为止，对神经计算语音模型的研究已经取得了很多成果，其中DIVA(Directions Into of Articulators)模型就是一种比较先进的语音生成、感知及获取的神经计算学语音模型。

DIVA模型是波士顿大学语音实验室Frank.Guenther教授及其团队开发的。在目前真正具有生物物理学意义的神经计算语音模型中，DIVA模型的定义和测试是最彻底的，而且它还是唯一一种应用伪逆控制技术的自适应神经网络模型。DIVA模型可以描述语音获取、感知及生成过程中的相关的处理过程，并可以通过控制模拟声道生成音素、音节或单词。图1中给出了DIVA模型的组成框图。

DIVA模型的特点包括：

模型包括前馈控制和反馈控制两个子系统；

模型的目标区域是由基频F0、前三个共振峰频率和对应的体觉目标组成；

模型的输入是单词、音节或音素。尽管迄今为止模型所聚焦的对象仍是短且简单的语音序列，但其对语言的影响(即韵律和韵律学结构、词法和词界等)必定涉及到更长更复杂的结构，而且这些结构已经在模型中被考虑；

模型对协同发音以及其关联现象的解释类似于Keating的窗口模型，但在目标如何被学习的解释方面却比窗口模型更具有优势；

DIVA模型通过充分应用对感知系统的学习获得了前所未有的成功。它所依据的方法是对已经存在的听觉声音进行分类，并且不用解释如何被学习。

DIVA模型存在一些缺陷，这些缺陷主要表现在以下几点：对于模型而言，假设所有在给定点给出的状态信息都是瞬间可用的；假定模型不存在神经延迟而且系统使用瞬时反馈控制；用于控制的基准框架只能选择发音器官感觉参考框架空间或听觉空间参考框架，两者不能同时并存；关于皮层与子皮层处理过程的分割以及大脑区域成分的关联性的描述相对粗糙。

发明内容

本发明所要解决的技术问题是针对上述背景技术的不足，提供了基于声道动作知识库改进的DIVA神经网络模型发音方法。

本发明为实现上述发明目的采用如下技术方案：

基于声道动作知识库改进的DIVA神经网络模型发音方法，包括如下步骤：

步骤1，构建改进的DIVA神经计算学语音模型：在DIVA神经计算学语音模型中添加作用于模拟发音器官的声道动作知识库；

步骤2，采集发音单元的共振峰频率，作为DIVA神经计算学语音模型的输入量；

步骤3，将DIVA神经网络模型的输入量映射到语音映射集中，初始化语音映射集中所有的音素单元为未激活状态；

步骤4，输入任意发音单元的振峰频率，训练基于声道动作知识库改进的DIVA神经计算学语音模型：

当语音映射集中存在于输入的发音单元的振峰频率相同的因素单元时，模拟发音器官直接经过前馈控制发出输入的发音单元；

否则，模拟发音器官经过反馈控制学习发出输入的发音单元。

所述基于声道动作知识库改进的DIVA神经网络模型发音方法，步骤4中所述的模拟发音器官经过反馈控制发出输入的发音单元具体实施方式如下：

步骤A，对模拟发音器官施以扰动发音单元，采集DIVA模型的听觉反馈信息、体觉反馈信息，体觉误差映射集由体觉目标区域以及体觉反馈信息得到体觉反馈命令；