[发明专利]数据处理方法、语音合成模型训练方法及装置在审
申请号: | 202210851638.0 | 申请日: | 2022-07-20 |
公开(公告)号: | CN116129851A | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 刘鹏飞;蒋宁;吴海英;刘敏 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 姚琳洁 |
地址: | 401121 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 语音 合成 模型 训练 装置 | ||
本申请公开了一种数据处理方法、语音合成模型训练方法及装置,用以解决目前语音合成的准确度低的问题。包括:对待处理的文本数据进行拆分处理,得到第一音素字符和第一音调字符;根据预设的字符和字符标识之间的第一映射关系,确定每个第一音素字符对应的音素字符标识,根据音素字符标识确定第一音素字符对应的音素标识序列;以及确定每个第一音调字符对应的音调字符标识,根据音调字符标识确定第一音调字符对应的音调标识序列;将音素标识序列和音调标识序列输入预先训练的语音合成模型中,进行语音合成处理,得到文本数据对应的目标语音数据。该技术方案提升了合成的语音数据的准确度。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、语音合成模型训练方法及装置。
背景技术
目前,端到端TTS(Text To Speech,文本转语音)技术越来越流行,通过TTS模型可以将输入数据转为较为自然的语音信号。由于对于模型而言,文本类型的输入数据是不被接受的,因此在输入TTS模型之前,需要对文本数据进行处理,但是,在文本数据包括多种类型的字符的情况下,处理所得到的输入数据仍然较复杂,从而在利用TTS模型对复杂的输入数据进行处理时,数据处理的准确度难以确保,导致语音合成的准确度降低,因此,需要提供一种能够提高语音合成的准确度的技术方案。
发明内容
本申请实施例的目的是提供一种数据处理方法、语音合成模型训练方法及装置,用以解决目前语音合成的准确度低的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,本申请实施例提供一种数据处理方法,包括:
对待处理的文本数据进行拆分处理,得到第一音素字符和第一音调字符,所述文本数据包括多个字符;
根据预设的字符和字符标识之间的第一映射关系,确定每个所述第一音素字符对应的音素字符标识,根据所述音素字符标识确定所述第一音素字符对应的音素标识序列;以及确定每个所述第一音调字符对应的音调字符标识,根据所述音调字符标识确定所述第一音调字符对应的音调标识序列;
将所述音素标识序列和所述音调标识序列输入预先训练的语音合成模型中,进行语音合成处理,得到所述文本数据对应的目标语音数据。
第二方面,本申请实施例提供一种语音合成模型训练方法,包括:
获取多个样本文本数据,以及每个所述样本文本数据对应的第一样本语音数据;
针对每个所述样本文本数据,对所述样本文本数据进行拆分处理,得到样本音素字符和样本音调字符;
根据预设的字符和字符标识之间的第一映射关系,确定每个所述样本音素字符对应的音素字符标识,根据所述样本音素字符对应的音素字符标识确定样本音素标识序列;以及确定每个所述样本音调字符对应的音调字符标识,根据所述样本音调字符对应的音调字符标识确定样本音调标识序列;
将所述样本音素标识序列和所述样本音调标识序列输入待训练的语音合成模型中,对所述语音合成模型进行迭代训练,得到训练后的语音合成模型。
第三方面,本申请实施例提供一种语音驱动数字人方法,包括:
获取待播报文本;
利用如第一方面所述的数据处理方法对所述待播报文本进行语音合成,得到目标语音数据;
利用所述目标语音数据驱动数字人进行播报。
第四方面,本申请实施例提供一种数据处理装置,包括:
第一拆分模块,用于对待处理的文本数据进行拆分处理,得到第一音素字符和第一音调字符,所述文本数据包括多个字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210851638.0/2.html,转载请声明来源钻瓜专利网。