[发明专利]基于语音雷达和深度学习的语音合成方法及系统在审
申请号: | 202011492591.0 | 申请日: | 2020-12-17 |
公开(公告)号: | CN114648974A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 孙理;韦益民;薛彪;洪弘;李彧晟;顾陈;朱晓华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/30;G06N3/04;G06N3/08;G01S7/41 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱炳斐 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 雷达 深度 学习 合成 方法 系统 | ||
1.一种基于语音雷达和深度学习的语音合成方法,其特征在于,所述方法包括以下步骤:
步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;
步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续M帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;
步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的N组共振峰参数;
步骤4,对步骤1获得的语音合成激励源和步骤3获得的N组共振峰参数进行语音合成,得到高自然度的合成语音信号。
2.根据权利要求1所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:
步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;
步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号S;
步骤1-3,利用经验小波变换算法对信号S进行模式分解,分解后的第k个模式fk(t)表示为:
式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波X=f1(t);
步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号X(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:
式中,C为削波电平。
3.根据权利要求2所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2中深度学习方法采用改进的3D卷积神经网络,该网络包括依次设置的大小为1×1×1的点状卷积滤波器,之后是三个相并列的大小为1×3×3的卷积核、大小为3×1×1的卷积核和大小为3×3×3的卷积核,最后是一个全连接层。
4.根据权利要求3所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2的具体过程包括:
步骤2-1,录制发声视频,之后进行唇区分割获得唇区视频;
步骤2-2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取N组时变共振峰参数,每组包括n个共振峰参数;
步骤2-3,基于改进的3D卷积神经网络构建共振峰参数估计模型,具体为:
基于步骤2-1获得多个唇区视频数据,作为3D卷积神经网络的输入,N组共振峰参数作为对应唇区视频在3D卷积神经网络中的输出;
唇区视频数据首先经过大小为1×1×1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1×3×3的卷积核卷积提取空间特征、与大小为3×1×1的卷积核卷积提取时间特征、与大小为3×3×3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出N组共振峰参数;
步骤2-4,训练共振峰参数估计模型,具体为:神经网络选用Adam优化器,采用poly学习率策略更新学习率,损失函数采用RMSE函数,对不同标签损失进行综合,计算最终的损失函数为:L=(L1+L2+…+LN)/N,其中L为模型综合损失,L1、L2、…、LN分别为N组共振峰对应标签的损失。
5.根据权利要求4所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2-1的具体过程包括:
步骤2-1-1,录制发音者发音时的视频,利用dlib人脸识别模块获得嘴唇轮廓特征点;
步骤2-1-2,根据嘴唇轮廓特征点进行唇区分割,获得大小为H×W的唇区图像,其中H为图像的高度,W为图像的宽度;
步骤2-1-3,选取发音者从张口到闭口的连续M帧图像构成大小为M×H×W的唇区视频数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011492591.0/1.html,转载请声明来源钻瓜专利网。