[发明专利]文本的语音合成方法、装置和计算机设备有效

申请号：	201910042827.1	申请日：	2019-01-17
公开（公告）号：	CN109754778B	公开（公告）日：	2023-05-30
发明（设计）人：	陈闽川;马骏;王少军	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L25/24
代理公司：	北京汇思诚业知识产权代理有限公司 11444	代理人：	冯晓平
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本语音合成方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种文本的语音合成方法、装置和计算机设备，其中，上述文本的语音合成方法包括首先获取待识别的目标文本；然后将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量；其次将所述特征向量输入预先训练的频谱转换模型，获取上述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；最后再将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音。这样，本申请在进行语音合成的时候，无需对文本中的每个字符进行拼音标注，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案，在人工智能领域中具有更广泛的应用范围。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本的语音合成方法、装置和计算机设备。

背景技术

由人工通过一定的机器设备产生出语音称为语音合成。语音合成是人机语音通信的一个重要组成部分。利用语音合成技术可以让机器像人一样说话，使一些以其他方式表示或存储的信息能转换为语音，从而人们可以通过听觉方便地获得这些信息。

现有相关技术中，为解决语音合成技术中的多音字发音问题，大多采用基于规则的方法或者基于统计机器学习的方法，但是，基于规则的方法需要人工设定大量的规则，基于统计机器学习的方法容易受到样本不均匀分布的限制。不仅如此，上述基于规则的方法和基于统计机器学习的方法均需要对训练文本进行大量的语音标注，这无疑大大增加了工作量。

发明内容

本申请实施例提供一种文本的语音合成方法、装置和计算机设备，通过预先训练的频谱转换模型，可以获取待识别文本中每个字符对应的梅尔频谱，并将梅尔频谱转换为语音，据此可以获得目标文本对应的语音，有效地减少了语音合成过程中的工作量，并为语音合成过程中的发音问题提供了有效的解决方案。

第一方面，本申请实施例提供了一种文本的语音合成方法，包括：

获取待识别的目标文本；

将所述目标文本中的每个字符进行离散型特征处理，以生成每个字符对应的特征向量；

将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱；

将所述梅尔频谱转换为语音，以获得所述目标文本对应的语音。

其中在一种可能的实现方式中，所述将所述特征向量输入预先训练的频谱转换模型，获取所述频谱转换模型输出的所述目标文本中每个字符对应的梅尔频谱之前，还包括：

获取预设数量的训练文本和所述训练文本对应的配对语音；

对所述训练文本进行离散型特征处理，以获得所述训练文本中的每个字符对应的特征向量；

将所述训练文本中的每个字符对应的特征向量输入待训练的频谱转换模型，获得所述待训练的频谱转换模型输出的梅尔频谱；以及，

当所述待训练的频谱转换模型输出的梅尔频谱与所述配对语音对应的梅尔频谱之间的误差小于或等于预设阈值时，获得训练好的频谱转换模型。