[发明专利]语音合成方法和装置有效

申请号：	202110335308.1	申请日：	2021-03-29
公开（公告）号：	CN112927677B	公开（公告）日：	2023-07-25
发明（设计）人：	杨惠;吴雨璇;梁光;周鼎皓;陈昌儒	申请（专利权）人：	北京大米科技有限公司
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/02
代理公司：	北京睿派知识产权代理有限公司 11597	代理人：	刘锋
地址：	100142 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音合成方法，其特征在于，所述方法包括：

确定文本信息和对应的音频信息；

确定所述文本信息对应的音素序列；

确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；

确定目标场景对应的场景特征向量；

根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息；

其中，所述根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息包括：

将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息；

所述确定目标场景对应的场景特征向量包括：

对多个预设的场景标识信息进行独热编码，以确定多个场景独热向量，所述场景标识信息用于表征对应的场景；

确定目标场景对应的场景独热向量为场景特征向量。

2.根据权利要求1所述的方法，其特征在于，所述确定文本信息和对应的音频信息包括：

确定文本信息；

根据所述文本进行录制对应的音频信息。

3.根据权利要求1所述的方法，其特征在于，所述确定所述文本信息对应的音素序列包括：

确定所述文本信息中各文字对应的音素；

根据各所述音素确定音素序列，各所述音素在所述音素序列中的位置根据对应文字在时间维度上的顺序确定。

4.根据权利要求1所述的方法，其特征在于，所述确定所述音频信息对应的音频特征向量序列包括：

对所述音频信息进行分帧，得到包括多个音频信息片段的音频信息片段序列；

对各所述音频信息片段进行音频特征提取，以确定音频特征向量序列。

5.根据权利要求4所述的方法，其特征在于，所述对各所述音频信息片段进行音频特征提取具体为：

提取各所述音频信息片段的Fbank特征。

6.根据权利要求1所述的方法，其特征在于，所述语音合成模型包括特征对齐层、特征拼接层和语音合成层；

所述将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息包括：

将所述音素序列和音频特征向量序列输入所述特征对齐层，输出音素向量序列；

将所述音素向量序列与所述场景特征向量输入所述特征拼接层进行特征拼接后输入语音合成层，以输出对应的语音信息。

7.一种语音合成装置，其特征在于，所述装置包括：

信息确定模块，用于确定文本信息和对应的音频信息；

第一序列确定模块，用于确定所述文本信息对应的音素序列；

第二序列确定模块，用于确定所述音频信息对应的音频特征向量序列，所述音频特征向量序列中包括多个音频特征向量；

向量确定模块，用于确定目标场景对应的场景特征向量；

语音合成模块，用于根据所述音素序列、音频特征向量序列和场景特征向量进行语音合成，以确定对应的语音信息；

其中，所述语音合成模块具体用于：

将所述音素序列、音频特征向量序列和场景特征向量输入训练得到的语音合成模型，以输出对应的语音信息；

所述向量确定模块具体用于：

对多个预设的场景标识信息进行独热编码，以确定多个场景独热向量，所述场景标识信息用于表征对应的场景；

确定目标场景对应的场景独热向量为场景特征向量。

8.一种计算机可读存储介质，用于存储计算机程序指令，其特征在于，所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司，未经北京大米科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110335308.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于轮廓建模的文本检测方法
下一篇：用于制取芯-壳结构纳米纤维的静电纺丝装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法和装置有效

专利文献下载