[发明专利]一种用于汉语语音合成的音调修正方法有效

申请号：	201110356259.6	申请日：	2011-11-11
公开（公告）号：	CN102496363A	公开（公告）日：	2012-06-13
发明（设计）人：	那兴宇;王朝民;谢湘;何娅玲	申请（专利权）人：	北京宇音天下科技有限公司
主分类号：	G10L13/02	分类号：	G10L13/02
代理公司：	暂无信息	代理人：	暂无信息
地址：	100085 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于汉语语音合成音调修正方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明设计一种参数化语音合成方法，具体地涉及一种用于汉语语音合成的音调修正方法。

背景技术

语音合成技术的目标是使电子设备向人类一样发声。随着语音合成技术的发展，合成声音的音质、自然度、智能度都有了很大提高，其中发展最为迅速的是基于参数化统计模型的语音合成技术。基于隐马尔科夫模型的参数化统计语音合成技术是这一类方法的代表，其合成音质具有较高的连贯度和灵活度，所需的资源占用空间较小，具有极大的实用和研究价值。这种方法分为两个部分，一是离线的模型训练部分，一是在线的语音合成部分。在离线训练部分，首先将训练语料进行参数化表示，通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练，要事先对每条训练语料进行标注，标注内容包括音节、音调和韵律层级结构等。在在线合成部分，对任意合成文本进行分析得到合成标注，然后使用参数模型进行参数结算及合成滤波，最终输出语音。

由于在汉语合成中单个音节的音调准确率对于合成语音的可懂度和自然度都有着至关重要的作用，而隐马尔科夫模型属于一种按状态分段的分段模型，各个分段之间相互独立，造成在一个音节内的基频出现不平滑的现象，导致可懂度和自然度的明显下降。因此，需要一种新的算法，能够对音节的整体基频包络进行可训练的描述，以捕捉不同说话人在发声过程中的不同语境下的不同音调表现，并能够在合成时对状态模型生成的基频包络进行修正，改善合成语音的音调准确率，进而提高可懂度和韵律表现力。

发明内容

为了解决现有的技术缺陷，本发明的目的是要提出一种算法，能够对音节的整体基频包络进行可训练的描述，以捕捉不同说话人在发声过程中的不同语境下的不同音调表现，并能够在合成时对状态模型生成的基频包络进行修正，改善合成语音的音调准确率，进而提高可懂度和韵律表现力。为此，本发明构建一种用于汉语语音合成的音调修正方法。

为实现上述目的，本发明的一种用于汉语语音合成的音调修正方法，利用各种计算机和数字设备的输入，将所接收到的任意文字串转化为语音输出，其特征在于：由离线训练模块和参数语音合成模块组成，其中：

具有一离线训练模块，负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练；

具有一参数语音合成模块，输入端接受文本信息，负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列，并进一步合成语音信号；具有一输出端输出合成的语音信号；

根据本发明的实施例，所述离线训练模块包括：

具有一参考音调模型训练模块，负责提取训练语料的参数化音调，使用基于上下文的隐马尔科夫模型进行参考音调模型的训练；

具有一连续隐马尔科夫训练模块，使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练；

具有一多空间隐马尔科夫模型训练模块，使用多空间概率隐马尔科夫模型进行基频生成模型的训练。

根据本发明的实施例，所述参考音调模型训练模块包括：

具有一基频提取模块，负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线；

具有一基频参数化模块，负责对全部训练语料的基频进行以音节为单位的参数化表示；

具有一基于上下文的参考音调模型训练模块，负责训练得到基于完整上下文的参考音调模型；

具有一基于上下文的决策树聚类模块，负责根据上下文特征对参考音调模型进行决策树聚类；