[发明专利]一种具有声纹克隆功能的语音通话方法及系统在审
申请号: | 202011432039.2 | 申请日: | 2020-12-09 |
公开(公告)号: | CN112735434A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 孙蒙;贾冲;张雄伟;邹霞;李莉;康凯;曹铁勇;杨吉斌 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L21/0216;G10L25/03;G10L25/27;G10L25/63 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210014 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 具有 声纹 克隆 功能 语音 通话 方法 系统 | ||
1.一种具有声纹克隆功能的语音通话方法,其特征在于,
拾取待转换语音,输入到预先训练好的特定人语音转换模块,将待转换语音转换为目标语音,所述目标语音的内容、语调和情感保持与待转换语音一致;
将所述特定人语音传输到接听方的扬声器。
2.根据权利要求1所述的具有声纹克隆功能的语音通话方法,其特征在于,所述拾取待转换语音的过程包括:
通过具有窄指向性的麦克风阵列拾取待转换语音。
3.根据权利要求1所述的具有声纹克隆功能的语音通话方法,其特征在于,
所述输入到预先训练好的特定人语音转换模块,将待转换语音转换为特定人语音的过程包括:
提取待转换语音的语音特征,所述语音特征包括基频、对数谱、非周期分量;
利用预先确定的关于特定人语音的对数线性函数对待转换语音的基频进行转换,得到转换后的目标基频;
将待转换语音的非周期分量复制为目标非周期分量;
利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测,确定目标对数谱;
将所述目标基频、目标非周期分量和目标对数谱整合生成所述目标语音。
4.根据权利要求3所述的具有声纹克隆功能的语音通话方法,其特征在于,
所述对数线性函数为:
其中,F0t为目标基频,F0s为待转换语音的基频,μs和σs分别为待转换语音的基频的均值和标准差,μt和σt分别为特定人语音的基频的均值和标准差。
5.根据权利要求3所述的具有声纹克隆功能的语音通话方法,其特征在于,
所述利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测,确定目标对数谱的过程包括:
所述特定人语音和待转换语音的对数谱差异表示为Δt=yt-xt;
所述长短时记忆模型的结构如公式(2)-(7)所示:
it=σ(Wxixt+Whiht-1+bi) (3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf) (4)
ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo) (6)
ht=ot⊙tanh(ct) (7)
其中,yt为特定人语音的第t帧的对数谱,xt为待转换语音的第t帧的对数谱,ht为长短时记忆模型的第t个时刻隐含单元矢量,ot表示第t个时刻的输出门,it表示第t个时刻的输入门,ft表示第t个时刻的遗忘门,t-1表示上一时刻,为中间变量表示长短时记忆模型特有的细胞单元矢量,Wkl为各自的权重,bl为各自的偏置,下标k为x、c或h、下标l为c、i、f或o,σ为激活函数,⊙为点对点的元素相乘;
在开始时刻,初始化h0和c0;在时刻t=1,输入第1帧的对数谱x1,经过公式(2)计算得到临时的细胞单元矢量c1;经过公式(3)和(4)计算得到输入门矢量i1和遗忘门矢量f1;经过公式(5)更新细胞单元矢量c1;经过公式(6)计算输出门o1;最后经过公式(7)计算得到本层输出的隐含单元矢量h1;以此类推到任意t时刻,直到序列结束;
上述结构重复若干次,构成多层LSTM,下一层的输出ht当作上一层的输入xt即可;最终,将最后一个LSTM层的输出ht经过全连接网络后,输出残差Δt的预测,然后将残差的预测叠加于输入的对数谱xt,即得到转换后的对数谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011432039.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种隔油、除渣一体式垃圾处理系统
- 下一篇:一种PP微孔折叠滤芯加工工艺