[发明专利]一种基于统计参数的疑问句、感叹句的语音合成方法在审
申请号: | 201610000676.X | 申请日: | 2016-01-04 |
公开(公告)号: | CN105654942A | 公开(公告)日: | 2016-06-08 |
发明(设计)人: | 徐明星;车浩 | 申请(专利权)人: | 北京时代瑞朗科技有限公司 |
主分类号: | G10L13/10 | 分类号: | G10L13/10;G10L13/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于统计参数的疑问句、感叹句的语音合成方法,该方法分为通过对陈述句的模型训练,得到陈述句的初始声学模型、通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型和根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成三部分。本发明提供了一种在小语料情况下,采用小规模语料快速实现疑问句或感叹句的语音合成方法,解决了相对于陈述句语料,疑问句或感叹句语料较难收集,语料规模较小情况下,得的较高音质以及自然度的合成语音的问题。 | ||
搜索关键词: | 一种 基于 统计 参数 疑问句 感叹句 语音 合成 方法 | ||
【主权项】:
一种基于统计参数的疑问句、感叹句的语音合成方法,其特征在于,该方法分为以下三个部分:第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型作为初始声学模型;初始声学模型采用多空间概率分布‑隐半马尔科夫模型进行建模,首先分别通过文本标注和语音信号提取激励参数、谱参数,将基频以及谱参数融合为一个向量,然后加入一阶、二阶动态参数作为多空间概率分布‑隐半马尔科夫模型训练的输入,最终得到陈述句的基于多空间概率分布‑隐半马尔科夫模型初始声学模型;或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模型;获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注以及语音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分布‑隐半马尔科夫模型初始声学模型的基础上进行自适应训练,得到疑问句或感叹句的基于多空间概率分布‑隐半马尔科夫模型的声学模型;或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得到疑问句或感叹句的基于深度神经网络的声学模型;第三部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成;对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句或感叹句的基于多空间概率分布‑隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型进行语音参数的生成,然后经过语音声码器,最终合成出疑问句或者感叹句的语音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京时代瑞朗科技有限公司,未经北京时代瑞朗科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610000676.X/,转载请声明来源钻瓜专利网。