[发明专利]基于语音雷达和深度学习的语音合成方法及系统在审

专利信息
申请号: 202011492591.0 申请日: 2020-12-17
公开(公告)号: CN114648974A 公开(公告)日: 2022-06-21
发明(设计)人: 孙理;韦益民;薛彪;洪弘;李彧晟;顾陈;朱晓华 申请(专利权)人: 南京理工大学
主分类号: G10L13/02 分类号: G10L13/02;G10L25/30;G06N3/04;G06N3/08;G01S7/41
代理公司: 南京理工大学专利中心 32203 代理人: 朱炳斐
地址: 210094 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语音 雷达 深度 学习 合成 方法 系统
【权利要求书】:

1.一种基于语音雷达和深度学习的语音合成方法,其特征在于,所述方法包括以下步骤:

步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;

步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续M帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;

步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的N组共振峰参数;

步骤4,对步骤1获得的语音合成激励源和步骤3获得的N组共振峰参数进行语音合成,得到高自然度的合成语音信号。

2.根据权利要求1所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:

步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;

步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号S;

步骤1-3,利用经验小波变换算法对信号S进行模式分解,分解后的第k个模式fk(t)表示为:

式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波X=f1(t);

步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号X(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:

式中,C为削波电平。

3.根据权利要求2所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2中深度学习方法采用改进的3D卷积神经网络,该网络包括依次设置的大小为1×1×1的点状卷积滤波器,之后是三个相并列的大小为1×3×3的卷积核、大小为3×1×1的卷积核和大小为3×3×3的卷积核,最后是一个全连接层。

4.根据权利要求3所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2的具体过程包括:

步骤2-1,录制发声视频,之后进行唇区分割获得唇区视频;

步骤2-2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取N组时变共振峰参数,每组包括n个共振峰参数;

步骤2-3,基于改进的3D卷积神经网络构建共振峰参数估计模型,具体为:

基于步骤2-1获得多个唇区视频数据,作为3D卷积神经网络的输入,N组共振峰参数作为对应唇区视频在3D卷积神经网络中的输出;

唇区视频数据首先经过大小为1×1×1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1×3×3的卷积核卷积提取空间特征、与大小为3×1×1的卷积核卷积提取时间特征、与大小为3×3×3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出N组共振峰参数;

步骤2-4,训练共振峰参数估计模型,具体为:神经网络选用Adam优化器,采用poly学习率策略更新学习率,损失函数采用RMSE函数,对不同标签损失进行综合,计算最终的损失函数为:L=(L1+L2+…+LN)/N,其中L为模型综合损失,L1、L2、…、LN分别为N组共振峰对应标签的损失。

5.根据权利要求4所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2-1的具体过程包括:

步骤2-1-1,录制发音者发音时的视频,利用dlib人脸识别模块获得嘴唇轮廓特征点;

步骤2-1-2,根据嘴唇轮廓特征点进行唇区分割,获得大小为H×W的唇区图像,其中H为图像的高度,W为图像的宽度;

步骤2-1-3,选取发音者从张口到闭口的连续M帧图像构成大小为M×H×W的唇区视频数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011492591.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top