[发明专利]基于深度学习与简单声学特征的零次语音转换系统和方法在审

申请号：	202011204478.8	申请日：	2020-11-02
公开（公告）号：	CN112382308A	公开（公告）日：	2021-02-19
发明（设计）人：	魏建国;谭智元;路文焕;徐君海	申请（专利权）人：	天津大学
主分类号：	G10L25/03	分类号：	G10L25/03;G10L25/18;G10L25/24;G10L25/30;G10L25/48;G10L17/04
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	刘国威
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习简单声学特征语音转换系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习与简单声学特征的零次语音转换系统，其特征是，包含以下几个模块：

(1)特征提取器：从音频文件中提取所需的声学特征；

(2)内容编码器：从声学特征中得到对应语句的内容隐表示；

(3)说话人身份编码器：从声学特征中得到对应说话人的隐表示；

(4)说话人身份矫正器：调整已有的说话人隐表示，提升其可用性；

(5)解码器：从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征；

(6)神经声码器即频谱反相器：利用重构后的声学特征重建音频。

2.一种基于深度学习与简单声学特征的零次语音转换方法，其特征是，步骤如下：

(1)数据准备：准备音频数据集并按比例分割为训练集及测试集。

(2)特征提取：从音频中提取梅尔频谱(Mel-Spectrogram)、梅尔倒谱系数(MCEP)以及基频(F0)特征。

(3)模型训练：将提取出的声学特征作为输入，训练各模块。

(4)使用模型进行转换：使用内容编码器提取语句内容，与目标说话人的身份特征隐表示结合后输入给解码器，重构声学特征。

(5)重构音频：使用重构的声学特征，使用神经网络声码器进行音频重构，得到目标音频。

3.如权利要求2所述的基于深度学习与简单声学特征的零次语音转换方法，其特征是，详细步骤如下：

步骤一，数据准备：本发明采用数据库以及录制的人声音频作为模型训练和测试的数据集；

步骤二，特征提取：

提取梅尔频谱：

1)对音频信号预加重、分帧和加窗；

2)对每帧信号进行短时傅立叶变换(STFT)，得到短时幅度谱；

3)短时幅度谱通过梅尔滤波器组得到梅尔频谱；

基频F0的计算：

1)使用不同的截止频率的低通滤波器，如果滤波后的信号只包含基频，那么它就是一个正弦波；

2)计算每一个滤波后的信号中的候选基频以及可信度，由于只包含基频的信号应该是一个正弦波，计算四个跨度的平均值，用倒数来表示候选基频。同时，使用四个跨度的标准差作为衡量基频可信度的指标，标准差越大，说明跨度长短差异较大，那么取此频率作为基频的可信度就较低；

3)选取可信度最高的候选基频作为最终的基频；

频谱包络的提取：

1)对信号添加汉宁窗，然后对加窗之后的信号计算其功率，公式如下所示；

2)使用矩形窗函数对功率谱进行平滑化，公式如下所示；

3)计算功率谱的倒谱，并做倒谱提升，公式如下所示；

最终得到的P_l(ω)就是频谱包络特征；

步骤三，模型训练：

在训练过程中，内容编码器和解码器一起训练，而说话人身份矫正器单独进行训练；内容编码器产生内容隐表示，与矫正后的该说话人的隐表示结合后馈入解码器，产生重构的音频特征，训练的目标是使该重构特征与原本的音频特征尽可能相似，这个过程称为自我重构(Self-Reconstruction)训练；

步骤四，使用模型进行转换：

将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器，得到源音频内容的隐表示以及目标说话人的隐表示，组合后输入给解码器，得到转换后的音频特征；

步骤五，重构音频：

使用神经网络声码器(WaveNet)进行由转换后的特征到音频的重构过程，最终得到转换后的音频。

4.如权利要求2所述的基于深度学习与简单声学特征的零次语音转换方法，其特征是，步骤三，模型训练详细步骤如下：

内容编码器产生内容编码的过程表示为：

C_n＝Ec(X_nA，S_A)

解码器进行自我重构的过程表示为：

说话人身份矫正器的工作过程表示为：

S′_A＝G(S_nA)

整体训练目标表示为：

L＝L_recon+λL_content+μL_adjust

此外说话人身份编码器的训练目标是使同一说话人的任意语句都产生尽可能相同的说话人身份隐表示，对于不同的说话人则尽可能产生完全不同的说话人身份隐表示，以此将不同的说话人身份完全区分开。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011204478.8/1.html，转载请声明来源钻瓜专利网。

上一篇：多媒体内容推荐方法、装置、车辆及存储介质
下一篇：一种星载测云雷达回波模拟及回波特征参数精度估算方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习与简单声学特征的零次语音转换系统和方法在审

专利文献下载