[发明专利]一种具有声纹克隆功能的语音通话方法及系统在审

申请号：	202011432039.2	申请日：	2020-12-09
公开（公告）号：	CN112735434A	公开（公告）日：	2021-04-30
发明（设计）人：	孙蒙;贾冲;张雄伟;邹霞;李莉;康凯;曹铁勇;杨吉斌	申请（专利权）人：	中国人民解放军陆军工程大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/04;G10L21/0216;G10L25/03;G10L25/27;G10L25/63
代理公司：	南京纵横知识产权代理有限公司 32224	代理人：	董建林
地址：	210014 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种具有声纹克隆功能语音通话方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种具有声纹克隆功能的语音通话方法，其特征在于，

拾取待转换语音，输入到预先训练好的特定人语音转换模块，将待转换语音转换为目标语音，所述目标语音的内容、语调和情感保持与待转换语音一致；

将所述特定人语音传输到接听方的扬声器。

2.根据权利要求1所述的具有声纹克隆功能的语音通话方法，其特征在于，所述拾取待转换语音的过程包括：

通过具有窄指向性的麦克风阵列拾取待转换语音。

3.根据权利要求1所述的具有声纹克隆功能的语音通话方法，其特征在于，

所述输入到预先训练好的特定人语音转换模块，将待转换语音转换为特定人语音的过程包括：

提取待转换语音的语音特征，所述语音特征包括基频、对数谱、非周期分量；

利用预先确定的关于特定人语音的对数线性函数对待转换语音的基频进行转换，得到转换后的目标基频；

将待转换语音的非周期分量复制为目标非周期分量；

利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测，确定目标对数谱；

将所述目标基频、目标非周期分量和目标对数谱整合生成所述目标语音。

4.根据权利要求3所述的具有声纹克隆功能的语音通话方法，其特征在于，

所述对数线性函数为：

其中，F0_t为目标基频，F0_s为待转换语音的基频，μ_s和σ_s分别为待转换语音的基频的均值和标准差，μ_t和σ_t分别为特定人语音的基频的均值和标准差。

5.根据权利要求3所述的具有声纹克隆功能的语音通话方法，其特征在于，

所述利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测，确定目标对数谱的过程包括：

所述特定人语音和待转换语音的对数谱差异表示为Δ_t＝y_t-x_t；

所述长短时记忆模型的结构如公式(2)-(7)所示：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (3)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (4)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o) (6)

h_t＝o_t⊙tanh(c_t) (7)

其中，y_t为特定人语音的第t帧的对数谱，x_t为待转换语音的第t帧的对数谱，h_t为长短时记忆模型的第t个时刻隐含单元矢量，o_t表示第t个时刻的输出门，i_t表示第t个时刻的输入门，f_t表示第t个时刻的遗忘门，t-1表示上一时刻，为中间变量表示长短时记忆模型特有的细胞单元矢量，W_kl为各自的权重，b_l为各自的偏置，下标k为x、c或h、下标l为c、i、f或o，σ为激活函数，⊙为点对点的元素相乘；

在开始时刻，初始化h₀和c₀；在时刻t＝1，输入第1帧的对数谱x₁，经过公式(2)计算得到临时的细胞单元矢量c₁；经过公式(3)和(4)计算得到输入门矢量i₁和遗忘门矢量f₁；经过公式(5)更新细胞单元矢量c₁；经过公式(6)计算输出门o₁；最后经过公式(7)计算得到本层输出的隐含单元矢量h₁；以此类推到任意t时刻，直到序列结束；

上述结构重复若干次，构成多层LSTM，下一层的输出h_t当作上一层的输入x_t即可；最终，将最后一个LSTM层的输出h_t经过全连接网络后，输出残差Δ_t的预测，然后将残差的预测叠加于输入的对数谱x_t，即得到转换后的对数谱。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学，未经中国人民解放军陆军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011432039.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种具有声纹克隆功能的语音通话方法及系统在审

专利文献下载