[发明专利]音色转换方法、装置及电子设备在审

申请号：	202011522489.0	申请日：	2020-12-21
公开（公告）号：	CN112652318A	公开（公告）日：	2021-04-13
发明（设计）人：	王愈;李健;武卫东;陈明	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G10L21/013	分类号：	G10L21/013
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音色转换方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种音色转换方法、装置及电子设备，属于音频处理技术领域。所述方法包括：对接收到的目标语音信息进行特征提取处理，获得输入谱参数；基于所述输入谱参数确定第一语音文本参数；基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；基于所述输出谱参数确定音色转换后的目标语音信息。本申请实施例可以实现通过确定语音声音参数，减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别，实现了对误识别的纠错和容错，保证了音色转换的转换效果，提高了音色转换的可靠性。

技术领域

本申请属于音频处理技术领域，具体涉及一种音色转换方法、装置及电子设备。

背景技术

随着音频处理技术领域的不断发展，音色转换作为音频处理技术领域的一个分支也得到了快速发展。音色转换(Voice Conversion)指的是将一个人语音的声线音色进行转换，而对其语音内容保持不变。

目前，传统的音色转换方案是基于语音识别因素后验概率的符合系统方案，也即是通过引入语音识别，实现“任意对一”的灵活转换和高自然度的发音效果。因此，转换效果依赖于语音识别的准确率，语音识别作为音色转换方案中转换模型的特征提取器，在训练阶段和使用阶段都是音色转换模型的上游输入，决定着输入数据流的质量，任何的识别错误到会传递到最终结果。

最常见的识别错误可以包括：汉语中平舌和翘舌之前的混淆(例如“sh”和“s”)或者声调错误，或者出现完全错误的字。在使用阶段，对输入的待转换语音，语音识别阶段的任何识别错误，在音色转换后一定也是错误的；在训练阶段，语音识别阶段的错误识别直接影响最终的训练结果，导致音色转换方案损害了音色转换的转换效果，降低了音色转换的可靠性。

发明内容

本申请实施例的目的是提供一种音色转换方法、装置及电子设备，能够解决现有技术中音色转换方案损害了音色转换的转换效果，降低了音色转换的可靠性的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音色转换方法，该方法包括：

对接收到的目标语音信息进行特征提取处理，获得输入谱参数；

基于所述输入谱参数确定第一语音文本参数；

基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数；

基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理，确定输出谱参数；

基于所述输出谱参数确定音色转换后的目标语音信息。

可选地，所述基于音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数，包括：

基于所述音色转换模型对所述输入谱参数进行变分自编码处理，确定语音声音参数概率分布的均值和方差；

基于正态分布函数生成所述语音声音参数概率分布的随机变量；