[发明专利]将文本转换为指定风格语音的方法有效

申请号：	202010128298.X	申请日：	2020-02-28
公开（公告）号：	CN111341294B	公开（公告）日：	2023-04-18
发明（设计）人：	姬艳丽;顾天成;张浩	申请（专利权）人：	电子科技大学
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/06;G10L19/018;G10L25/27;G10L25/51
代理公司：	成都行之专利代理事务所(普通合伙) 51220	代理人：	温利平;陈靓靓
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本转换指定风格语音方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种将文本转换为指定风格语音的方法，首先获得不同风格的训练样本，对训练样本中的每幅语音时频图像进行字符标注，获取字符的位置框序列和文本字符序列对双向长短期记忆网络进行训练，构建生成对抗网络，将训练样本中的语音时频图像作为原始语音时频图像，掩码图像作为其对应的掩码图像，文本字符序列作为真实文本字符序列，对生成对抗网络进行训练；将需要生成语音信号的文本通过双向长短期记忆网络预测得到字符位置框序列，进而得到掩码图像，将该掩码图像与指定风格的原始语音时频图像级联后作为生成器模块的输入并得到生成语音时频图像，最后转换得到语音信号。采用本发明可以实现单一文本到多种指定风格语音的转换。

技术领域

本发明属于语音合成技术领域，更为具体地讲，涉及一种将文本转换为指定风格语音的方法。

背景技术

随着深度学习在语音合成领域的不断深入，语音生成技术逐渐缩小了生成语音与人类语音的差距。语音生成通常是将一个文本通过特定的合成系统转换为一种特定风格的语音。此过程需要经过多个步骤的处理，比如前端文本分析，声学模型，以及音频合成模块。

传统的语音生成方法是拼接式语音合成：先录制单一说话者的大量语音片段，建立一个大型语料库，然后简单地从中进行选择并合成完整的大段音频、词语和句子。这种“机械式”方法使得计算机输出音频经常产生语音毛刺、语调的诡异变化、甚至结巴，并且无法调整语音的语调，强调性音节或情绪。

发明内容

本发明的目的在于克服现有技术的不足，提供一种将文本转换为指定风格语音的方法，实现单一文本到多种指定风格语音的转换。

为了实现上述发明目的，本发明将文本转换为指定风格语音的方法包括以下步骤：

S1：获取若干不同风格的语音信号，按照预定时间间隔对语音信号进行分割，记分割得到的语音信号数量为N，记第n个语音信号为S_n，其中n＝1,2,…,N，获取语音信号S_n的文本T_n以及语音时频图像I_n，将语音信号按照风格进行分类，记语音信号S_n对应的风格分类标签F_n；

S2：对于每幅语音时频图像I_n，标注图中每个字符的信息，字符信息包含该字符的字符类别和字符位置框；记每幅语音时频图像I_n中所有的位置框信息为该语音时频图像对应的位置框序列C_n；

S3：对于每幅语音时频图像I_n，根据位置框序列C_n中每个字符位置框位置，将字符位置框内的像素值置为1，其余像素值置为0，得到语音时频图像I_n对应的掩码图像

S4：构建双向长短期记忆网络，将各个文本T_n转换化文本字符序列，文本字符序列中包含各个字符及其类型，将文本字符序列作为双向长短期记忆网络的输入，将对应的位置框序列C_n作为双向长短期记忆网络的输出，对双向长短期记忆网络进行训练；

S5：构建生成对抗网络，包括生成器模块、内容判别器模块，图像来源判别器模块和风格判别器模块，其中生成器模块的输入为掩码图像和原始语音时频图像的级联图像，输出为生成语音时频图像；内容判别器模块的功能是对生成语音信号的文本内容真伪判别，其输入为生成语音信号时频图像经过目标检测识别出来的文本字符序列和真实文本字符序列，输出对预测数据的真否判断结果；图像来源判别器的功能是对语音时频图像的来源进行判别，其输入为生成语音时频图像和原始语音时频图像，其输出为图像来源的预测结果；风格判别器模块的功能是对原始语音时频图和生成语音时频图的语音风格判别，其输入为生成语音时频图像和原始语音时频图像，输出为语音风格分类的预测结果；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010128298.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]将文本转换为指定风格语音的方法有效

专利文献下载