[发明专利]一种产生新音色的语音合成方法有效
申请号: | 201910780718.X | 申请日: | 2019-08-22 |
公开(公告)号: | CN110459201B | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 孙见青 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/04 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 张楠楠 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 产生 音色 语音 合成 方法 | ||
本发明公开了一种产生新音色的语音合成方法,包括:利用多个音库数据对深度神经网络进行训练,形成第一合成模型;利用多个音库数据分别训练第一合成模型,形成与多个音库数据对应的多个第二合成模型;利用第一合成模型推理出第一输出参数;利用多个第二合成模型推理出与第二合成模型对应的多个第二输出参数,形成第二输出参数组;对第二输出参数组进行加权叠加形成声学参数;利用声码器重构声学参数形成合成语音。本发明提出的方法,能在不制作新音库的情况下实现新音色语音的合成,可根据现有发音人音库数据对应的合成模型对合成语音音色进行灵活调制,并且合成效率没有很明显变化,避免了制作新的发音人音库工序复杂,周期长和费用高的问题。
技术领域
本发明涉及语音合成领域,特别涉及一种产生新音色的语音合成方法。
背景技术
语音合成,又称文语转换(Text to Speech)技术,指的是将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术,解决的主要问题就是如何将文字信息转化为可听的声音信息。
随着语音合成技术的发展,用户对合成语音音色的多样化和差异化要求越来越高,现有产生新音色的方法一般是通过定制一个新的发音人音库来得到新的音色。但定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
发明内容
本发明提供了一种产生新音色的语音合成方法,用以解决定制新的发音人音库工序较为复杂,存在周期长、费用高的问题。
本发明提供的一种产生新音色的语音合成方法,包括:
利用多个音库数据对深度神经网络进行训练,形成第一合成模型;
利用所述多个音库数据分别训练所述第一合成模型,形成与所述多个音库数据对应的多个第二合成模型;
利用所述第一合成模型推理出第一输出参数;
利用所述多个第二合成模型推理出与所述第二合成模型对应的多个第二输出参数,形成第二输出参数组;
对所述第二输出参数组进行加权叠加形成声学参数;
利用声码器重构所述声学参数形成合成语音。
在本发明的一个实施例中,所述音库数据包括:声学特征,以及,与所述声学特征对应的文本信息;
其中,所述声学特征包括频谱、能量、基频和时长;
所述文本信息包括音素信息和韵律信息。
在本发明的一个实施例中,利用多个音库数据对深度神经网络进行训练,包括:
对多个音库数据中的文本信息进行编码,形成1116维二值数字作为深度神经网络的第一输入数据;
对多个音库数据中的声学特征进行建模,形成一个133维二值数字和一个1维二值数字作为深度神经网络的第一输出数据;
利用所述第一输入数据和所述第一输出数据对所述深度神经网络进行训练。
在本发明的一个实施例中,对多个音库数据中的文本信息进行编码,包括:
获取文本信息中的音素信息和韵律信息,对所述音素信息和所述韵律信息进行0/1编码,得到1114维二值数字;
加入当前帧在当前音素中的相对位置信息,包括前向位置信息和后向位置信息,得到2维二值数字;
将所述1114维二值数字和所述2维二值数字叠加形成1116维二值数字。
在本发明的一个实施例中,对多个音库数据中的声学特征进行建模,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780718.X/2.html,转载请声明来源钻瓜专利网。