[发明专利]一种语音合成方法、系统及相关设备在审
申请号: | 202011001059.4 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112102810A | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 陈家涛;陈文 | 申请(专利权)人: | 深圳追一科技有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/06;G10L13/10 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 518000 广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 系统 相关 设备 | ||
本发明实施例提供了一种语音合成方法、系统及相关设备,用于提高用户体验,提高语音合成的准确率。本发明实施例方法包括:获取带有音调标注的模板文本对应的第一录音文件;在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;对目标文本中的各个目标分词进行音调标记,并根据所述映射关系提取带有音调标记的各个目标分词的音频信号;按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成方法、系统及相关设备。
背景技术
TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。
现有方案中,通过提取各个字或者词语的字形匹配相应的文本的标准拼音,根据文本拼音转换为机器语音文件。现有方案中,基于文本拼音进行机器语音合成,没有可选的音色,用户体验不好。而且语音转换过程中单个字可能有多个不同的语音声调,如果单个字选择的声调不合适,会导致合成的语音表达出错误的语义。
为解决上述任一问题,使得文本输出的语音的音色让人感觉自然,语义表达正确,提出一种语音合成方法。
发明内容
本发明实施例提供了一种语音合成方法、系统及相关设备,用于提高用户体验,提高语音合成的准确率。
本发明实施例第一方面提供了一种语音合成方法,可包括:
获取带有音调标注的模板文本对应的第一录音文件;
在所述第一录音文件中提取所述模板文本中带有音调标注的分词的音频信号,并将提取到的音频信号与对应的带有音调标注的分词建立映射关系;
对目标文本中的各个目标分词进行音调标记,并根据所述映射关系提取带有音调标记的各个目标分词的音频信号;
按照各个目标分词的排列顺序将提取到的音频信号合成所述目标文本对应的音频文件。
可选的,作为一种可能的实施方式,本发明实施例中,对目标文本中的各个目标分词进行音调标记可以包括:
若识别到预设词库中的语气词,而且所述语气词位于句首或单独出现,则将所述语气词的音调标记为轻声之外的预设音调,所述预设音调与所述语气词的位置关联;或者,
若识别到预设词库中的语气词,而且所述语气词位于句尾,则将所述语气词的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到预设词库中的变调词汇,则根据所述变调词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到预设词库中包含多音字的词汇,则根据所述包含多音字的词汇的预存音调进行音调标记。
可选的,作为一种可能的实施方式,本发明实施例中的语音合成方法还可以包括:
若识别到“儿”字组成预设儿化音词库中词语,则将所述“儿”字的音调标记为轻声。
可选的,作为一种可能的实施方式,本发明实施例中,根据所述映射关系提取带有音调标记的各个目标分词的音频信号,包括:
获取用户选择的目标录音师对应的身份标识;
根据所述身份标识确定所述目标录音师对应的映射关系中提取带有音调标记的各个目标分词的音频信号。
本发明实施例第二方面提供了一种语音合成系统,可包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳追一科技有限公司,未经深圳追一科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011001059.4/2.html,转载请声明来源钻瓜专利网。