[发明专利]基于wavenet的情感语音转换方法在审
申请号: | 202010229173.6 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111402923A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 白杨;陈明义;吴国彪 | 申请(专利权)人: | 中南大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/30;G10L25/63;G10L15/06 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 wavenet 情感 语音 转换 方法 | ||
本发明公开了一种基于wavenet的情感语音转换方法,包括获取语音文件构成语料库;将语音数据分为中性语音文件和情感语音文件且内容相同的语音分为同一组;提取语音文件的声学特征基音频率;对语音文件进行预处理得到每一组语音文件的梅尔谱特征;针对每一组语音文件的梅尔谱特征进行动态规划特征点对齐;构建情感梅尔谱转换模型;构建wavenet语音合成模型;采用情感梅尔谱转换模型作为前向网络输入,利用wavenet语音合成模型作为后向网络,输出最终的情感语音文件。本发明方法的可靠性高、精确度好且效率较高。
技术领域
本发明属于语音数据处理领域,具体涉及一种基于wavenet的情感语音转换方法。
背景技术
随着经济技术的发展和人工智能技术的发展,人们的娱乐生活也日益丰富。大众的生活离不开视音频技术,如何让机器同人类一样具备情感感知能力与表达能力是实现人机交互和谐的关键。近些年,语音处理技术有了显著的提升,但目前计算机只具备逻辑推理能力,若赋予计算机情感表达能力,能实现和谐的人机交互,省去了键盘、鼠标等与计算机沟通的间接工具。未来机器与人的交流不再局限于中性语音,而是可以利用语音声情并茂地和计算机交流。另外在影视艺术领域,若是能转换人物语音的情感也能大大增加作品水平,例如配音。所以对于语音情感的转换来说,不论对象是机器或是人都有很深刻的研究意义。
现有的情感语音转换技术,一般采用如下几种方法:
1.纯人工转换:根据中性语音,由专业配音演员带有情感地对原语音进行模仿再现;但是,其准确性也取决于人员的专业程度,还需要花费大量时间,效率较低;
2.基于机器学习模型的回归算法进行平行训练的方法:通过对于的中性语音与情感语音的每一个语音声学特征进行平行训练达到转换的效果;该方法虽然精度高,但是训练效率极低;并且对于训练语料库的要求较高,需要大量的训练数据;此外,该方法通常采用维度较高的声学特征以保留原始语音的声学信息,维度越高训练时间越大;
3.基于机器学习模型的回归算法进行非平行训练的方法:本方法在方法二的基础上,采取中性语音与情感语音可以在说话内容不相同的情况下作为训练样本输入转换模型进行训练;本方法训练时间快,但是输出精度低,而且由于训练时的目标参数范围过大,导致输出情感语音的质量较低。
发明内容
本发明的目的在于提供一种可靠性高、精确度好且效率较高的基于wavenet的情感语音转换方法。
本发明提供的这种基于wavenet的情感语音转换方法,包括如下步骤:
S1.获取语音文件,构成语料库;
S2.将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且说话内容相同的语音分为同一组;
S3.提取步骤S2分组后的语音文件中的声学特征基音频率;
S4.对步骤S2分组后的语音文件进行预处理,从而得到每一组语音文件的梅尔谱特征;
S5.针对步骤S4得到的每一组语音文件的梅尔谱特征,进行动态规划特征点对齐,从而使得每一组语音文件中对应的最短路径的两点进行映射,并作为训练对;
S6.构建情感梅尔谱转换模型;
S7.构建wavenet语音合成模型;
S8.采用步骤S6得到的情感梅尔谱转换模型作为前向网络输入,利用步骤S7构建的wavenet语音合成模型作为后向网络,输出最终的情感语音文件。
步骤S2所述的将步骤S1获取的语料库中的语音数据,分为中性语音文件和情感语音文件,且内容相同的语音分为同一组,具体为采用如下步骤进行分组:
A.提取具有相同内容的若干个情感色彩的语音文件作为训练集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010229173.6/2.html,转载请声明来源钻瓜专利网。