[发明专利]一种语音合成方法、装置、设备及介质在审
申请号: | 202310027292.7 | 申请日: | 2023-01-09 |
公开(公告)号: | CN116229933A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 周文铠 | 申请(专利权)人: | 浪潮通用软件有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06;G10L25/03;G10L25/30 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 王彬 |
地址: | 250101 山东省济*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 设备 介质 | ||
本说明书实施例公开了一种语音合成方法、装置、设备及介质,包括:将待语音合成的连续语音信号转换为离散语音信号;对所述离散语音信号进行特征参数提取,得到语音信号相关的语音参数;将所述语音参数输入至预先训练的语音合成模型,得到语音合成的语谱图,所述语音合成模型包括生成器与判别器;将所述语音合成的语谱图通过预设算法生成语音合成信号。本说明书实施例可以通过语音合成模型的生成器与判别器进行语音合成,可以提高语音合成的自然度,完整度,降低合成语音的杂音程度。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种语音合成方法、装置、设备及介质。
背景技术
语音合成是通过机械的、电子的方法产生人造语音的技术。目前水平下的合成语音很难体现出情感特征,例如在韵律表现上不够灵活,声调变化上相对死板。让机器拥有自然、有情感、高表现力的声音,依旧是语音合成技术的一大难点。
同时,语音合成技术实现上较为复杂,语音合成分为文本分析、韵律分析和声学分析三个部分。通过文本分析提取出文本特征,在此基础上预测基频、时长、节奏等多种韵律特征,然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。
在传统的方法中,语音合成需要对语音信号做大量的处理,需要耗费大量的时间,同时对知识掌握要求较高。
发明内容
本说明书一个或多个实施例提供了一种语音合成方法、装置、设备及介质,用于解决背景技术提出的技术问题。
本说明书一个或多个实施例采用下述技术方案:
本说明书一个或多个实施例提供的一种语音合成方法,包括:
将待语音合成的连续语音信号转换为离散语音信号;
对所述离散语音信号进行特征参数提取,得到语音信号相关的语音参数;
将所述语音参数输入至预先训练的语音合成模型,得到语音合成的语谱图,所述语音合成模型包括生成器与判别器;
将所述语音合成的语谱图通过预设算法生成语音合成信号。
可选的,所述将待语音合成的连续语音信号转换为离散语音信号前,所述方法还包括:
对所述连续语音信号进行分帧处理与加窗处理。
可选的,所述对所述离散语音信号进行特征参数提取,得到语音信号相关的语音参数,包括:
对所述离散语音信号进行傅里叶变换取模值,得到语音频谱图;
将所述语音频谱图中的纵坐标频率进行换算,得到所述语音参数。
可选的,所述语音参数包括基音周期与基音频率。
可选的,所述将所述语音参数输入至预先训练的语音合成模型前,所述方法还包括:
训练所述判别器时,固定所述生成器参数不变,通过训练数据调整所述判别器的参数;
训练所述生成器时,固定所述判别器参数不变,通过训练数据调整所述生成器的参数。
可选的,所述将所述语音参数输入至预先训练的语音合成模型前,所述方法还包括:
将所述生成器与所述判别器的输入层与输出层保持一致,并在训练过程中,将隐含层神经元个数、学习速率、每层节点数与迭代次数设置为不同的组合,不断优化网络参数。
可选的,所述预设算法为Griffin_lim算法。
本说明书一个或多个实施例提供的一种语音合成装置,所述装置包括:
信号转换单元,将待语音合成的连续语音信号转换为离散语音信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮通用软件有限公司,未经浪潮通用软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310027292.7/2.html,转载请声明来源钻瓜专利网。