[发明专利]音色转换方法、装置及电子设备在审
申请号: | 202011522489.0 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112652318A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 王愈;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音色 转换 方法 装置 电子设备 | ||
本申请公开了一种音色转换方法、装置及电子设备,属于音频处理技术领域。所述方法包括:对接收到的目标语音信息进行特征提取处理,获得输入谱参数;基于所述输入谱参数确定第一语音文本参数;基于音色转换模型对所述输入谱参数进行变分自编码处理,确定语音声音参数;基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理,确定输出谱参数;基于所述输出谱参数确定音色转换后的目标语音信息。本申请实施例可以实现通过确定语音声音参数,减小了基于第一语音文本参数确定输出谱参数进行音色转换的误识别,实现了对误识别的纠错和容错,保证了音色转换的转换效果,提高了音色转换的可靠性。
技术领域
本申请属于音频处理技术领域,具体涉及一种音色转换方法、装置及电子设备。
背景技术
随着音频处理技术领域的不断发展,音色转换作为音频处理技术领域的一个分支也得到了快速发展。音色转换(Voice Conversion)指的是将一个人语音的声线音色进行转换,而对其语音内容保持不变。
目前,传统的音色转换方案是基于语音识别因素后验概率的符合系统方案,也即是通过引入语音识别,实现“任意对一”的灵活转换和高自然度的发音效果。因此,转换效果依赖于语音识别的准确率,语音识别作为音色转换方案中转换模型的特征提取器,在训练阶段和使用阶段都是音色转换模型的上游输入,决定着输入数据流的质量,任何的识别错误到会传递到最终结果。
最常见的识别错误可以包括:汉语中平舌和翘舌之前的混淆(例如“sh”和“s”)或者声调错误,或者出现完全错误的字。在使用阶段,对输入的待转换语音,语音识别阶段的任何识别错误,在音色转换后一定也是错误的;在训练阶段,语音识别阶段的错误识别直接影响最终的训练结果,导致音色转换方案损害了音色转换的转换效果,降低了音色转换的可靠性。
发明内容
本申请实施例的目的是提供一种音色转换方法、装置及电子设备,能够解决现有技术中音色转换方案损害了音色转换的转换效果,降低了音色转换的可靠性的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种音色转换方法,该方法包括:
对接收到的目标语音信息进行特征提取处理,获得输入谱参数;
基于所述输入谱参数确定第一语音文本参数;
基于音色转换模型对所述输入谱参数进行变分自编码处理,确定语音声音参数;
基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理,确定输出谱参数;
基于所述输出谱参数确定音色转换后的目标语音信息。
可选地,所述基于音色转换模型对所述输入谱参数进行变分自编码处理,确定语音声音参数,包括:
基于所述音色转换模型对所述输入谱参数进行变分自编码处理,确定语音声音参数概率分布的均值和方差;
基于正态分布函数生成所述语音声音参数概率分布的随机变量;
基于所述均值、所述方差和所述随机变量,确定所述语音声音参数。
可选地,所述基于所述音色转换模型对所述第一语音文本参数和所述语音声音参数进行处理,确定输出谱参数,包括:
基于所述音色转换模型对所述第一语音文本参数进行预设轮次的长度减半的卷积操作,确定第二语音文本参数;
基于所述音色转换模型将所述语音声音参数添加至所述第二语音文本参数中,确定目标语音参数;
对所述目标语音参数进行所述预设轮次的长度加倍的反卷积操作,确定所述输出谱参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011522489.0/2.html,转载请声明来源钻瓜专利网。