[发明专利]语音合成方法和装置有效
申请号: | 202110335308.1 | 申请日: | 2021-03-29 |
公开(公告)号: | CN112927677B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 杨惠;吴雨璇;梁光;周鼎皓;陈昌儒 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/02 |
代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
地址: | 100142 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 | ||
1.一种语音合成方法,其特征在于,所述方法包括:
确定文本信息和对应的音频信息;
确定所述文本信息对应的音素序列;
确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;
确定目标场景对应的场景特征向量;
根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息;
其中,所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息包括:
将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息;
所述确定目标场景对应的场景特征向量包括:
对多个预设的场景标识信息进行独热编码,以确定多个场景独热向量,所述场景标识信息用于表征对应的场景;
确定目标场景对应的场景独热向量为场景特征向量。
2.根据权利要求1所述的方法,其特征在于,所述确定文本信息和对应的音频信息包括:
确定文本信息;
根据所述文本进行录制对应的音频信息。
3.根据权利要求1所述的方法,其特征在于,所述确定所述文本信息对应的音素序列包括:
确定所述文本信息中各文字对应的音素;
根据各所述音素确定音素序列,各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。
4.根据权利要求1所述的方法,其特征在于,所述确定所述音频信息对应的音频特征向量序列包括:
对所述音频信息进行分帧,得到包括多个音频信息片段的音频信息片段序列;
对各所述音频信息片段进行音频特征提取,以确定音频特征向量序列。
5.根据权利要求4所述的方法,其特征在于,所述对各所述音频信息片段进行音频特征提取具体为:
提取各所述音频信息片段的Fbank特征。
6.根据权利要求1所述的方法,其特征在于,所述语音合成模型包括特征对齐层、特征拼接层和语音合成层;
所述将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息包括:
将所述音素序列和音频特征向量序列输入所述特征对齐层,输出音素向量序列;
将所述音素向量序列与所述场景特征向量输入所述特征拼接层进行特征拼接后输入语音合成层,以输出对应的语音信息。
7.一种语音合成装置,其特征在于,所述装置包括:
信息确定模块,用于确定文本信息和对应的音频信息;
第一序列确定模块,用于确定所述文本信息对应的音素序列;
第二序列确定模块,用于确定所述音频信息对应的音频特征向量序列,所述音频特征向量序列中包括多个音频特征向量;
向量确定模块,用于确定目标场景对应的场景特征向量;
语音合成模块,用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成,以确定对应的语音信息;
其中,所述语音合成模块具体用于:
将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型,以输出对应的语音信息;
所述向量确定模块具体用于:
对多个预设的场景标识信息进行独热编码,以确定多个场景独热向量,所述场景标识信息用于表征对应的场景;
确定目标场景对应的场景独热向量为场景特征向量。
8.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110335308.1/1.html,转载请声明来源钻瓜专利网。