[发明专利]一种用于汉语语音合成的音调修正方法有效
申请号: | 201110356259.6 | 申请日: | 2011-11-11 |
公开(公告)号: | CN102496363A | 公开(公告)日: | 2012-06-13 |
发明(设计)人: | 那兴宇;王朝民;谢湘;何娅玲 | 申请(专利权)人: | 北京宇音天下科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 汉语 语音 合成 音调 修正 方法 | ||
技术领域
本发明设计一种参数化语音合成方法,具体地涉及一种用于汉语语音合成的音调修正方法。
背景技术
语音合成技术的目标是使电子设备向人类一样发声。随着语音合成技术的发展,合成声音的音质、自然度、智能度都有了很大提高,其中发展最为迅速的是基于参数化统计模型的语音合成技术。基于隐马尔科夫模型的参数化统计语音合成技术是这一类方法的代表,其合成音质具有较高的连贯度和灵活度,所需的资源占用空间较小,具有极大的实用和研究价值。这种方法分为两个部分,一是离线的模型训练部分,一是在线的语音合成部分。在离线训练部分,首先将训练语料进行参数化表示,通常表示为基频、增益和声道谱系数。为指导隐马尔科夫模型的训练,要事先对每条训练语料进行标注,标注内容包括音节、音调和韵律层级结构等。在在线合成部分,对任意合成文本进行分析得到合成标注,然后使用参数模型进行参数结算及合成滤波,最终输出语音。
由于在汉语合成中单个音节的音调准确率对于合成语音的可懂度和自然度都有着至关重要的作用,而隐马尔科夫模型属于一种按状态分段的分段模型,各个分段之间相互独立,造成在一个音节内的基频出现不平滑的现象,导致可懂度和自然度的明显下降。因此,需要一种新的算法,能够对音节的整体基频包络进行可训练的描述,以捕捉不同说话人在发声过程中的不同语境下的不同音调表现,并能够在合成时对状态模型生成的基频包络进行修正,改善合成语音的音调准确率,进而提高可懂度和韵律表现力。
发明内容
为了解决现有的技术缺陷,本发明的目的是要提出一种算法,能够对音节的整体基频包络进行可训练的描述,以捕捉不同说话人在发声过程中的不同语境下的不同音调表现,并能够在合成时对状态模型生成的基频包络进行修正,改善合成语音的音调准确率,进而提高可懂度和韵律表现力。为此,本发明构建一种用于汉语语音合成的音调修正方法。
为实现上述目的,本发明的一种用于汉语语音合成的音调修正方法,利用各种计算机和数字设备的输入,将所接收到的任意文字串转化为语音输出,其特征在于:由离线训练模块和参数语音合成模块组成,其中:
具有一离线训练模块,负责参考音调模型和增益、基频、声道谱和时长的参数生成模型的训练;
具有一参数语音合成模块,输入端接受文本信息,负责进行文本分析并根据文本分析的结果生成增益、声道谱系数序列和音调修正的基频序列,并进一步合成语音信号;具有一输出端输出合成的语音信号;
根据本发明的实施例,所述离线训练模块包括:
具有一参考音调模型训练模块,负责提取训练语料的参数化音调,使用基于上下文的隐马尔科夫模型进行参考音调模型的训练;
具有一连续隐马尔科夫训练模块,使用连续隐马尔科夫模型进行增益、声道谱和时长生成模型的训练;
具有一多空间隐马尔科夫模型训练模块,使用多空间概率隐马尔科夫模型进行基频生成模型的训练。
根据本发明的实施例,所述参考音调模型训练模块包括:
具有一基频提取模块,负责对全部训练语音进行精确的基频提取得到训练语料平滑的基频曲线;
具有一基频参数化模块,负责对全部训练语料的基频进行以音节为单位的参数化表示;
具有一基于上下文的参考音调模型训练模块,负责训练得到基于完整上下文的参考音调模型;
具有一基于上下文的决策树聚类模块,负责根据上下文特征对参考音调模型进行决策树聚类;
根据本发明的实施例,所述基频参数化模块包括:
具有一基频归一化模块,负责对训练语料的基频进行归一化处理,具有一输出端负责输出归一化后的分段基频包络;
具有一基频参数提取模块,负责对归一化的基频包络进行参数化表示,具有一输出端负责输出归一化分段基频的包络参数;
根据本发明的实施例,所述基于上下文的参考音调模型训练模块包括:
具有一上下文信息统计模块,负责统计训练语料中不同上下文的数目;
具有一均值累加计算模块,负责针对输入的每条训练语料进行相应模型均值的累加计算;
具有一方差计算模块,负责计算参考音调模型的全局方差;
具有一状态累加模块,负责统计每种上下文模型在训练语料中出现的次数;
根据本发明的实施例,所述参数语音合成模块包括:
具有一文本分析模块,负责接收所要合成的任意文字串,进行音节和韵律层级结构分析,具有一输出端负责输出完整的合成标注信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宇音天下科技有限公司,未经北京宇音天下科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110356259.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种复合式太阳能热泵热水系统
- 下一篇:一种PE电热熔带用板材及加工方法