[发明专利]基于语音雷达和深度学习的语音合成方法及系统在审
申请号: | 202011492591.0 | 申请日: | 2020-12-17 |
公开(公告)号: | CN114648974A | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 孙理;韦益民;薛彪;洪弘;李彧晟;顾陈;朱晓华 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L25/30;G06N3/04;G06N3/08;G01S7/41 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱炳斐 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语音 雷达 深度 学习 合成 方法 系统 | ||
本发明公开了一种基于语音雷达和深度学习的语音合成方法及系统,方法包括:由雷达获得声带振动回波信号;将雷达回波信号经过模式分解获取基波,然后对基波进行中心削波作为语音激励源;由发音者发音时嘴唇区域视频通过深度学习方法训练共振峰估计模型;将测试者发音的视频作为输入,获得共振峰参数;最后基于雷达回波激励源模型和共振峰参数进行语音合成。本发明方法可以获得保留基频连续变化特性的语音激励源和更加准确的共振峰参数估计,通过语音合成器,可以获得自然度更高的合成语音。
技术领域
本发明属于雷达技术领域,特别是一种基于语音雷达和深度学习的语音合成方法及系统。
背景技术
语音合成一直是语音领域最热门的研究之一。生物雷达已经被证明可用于语音信号的获取与合成,然而语音的质量尚有待改进。合成语音的质量与合成模型的选择、参数的准确度都有一定的关系。
语音激励源的准确度与合成语音的质量密切相关,目前已有研究大多使用基频产生脉冲从而生成激励源,而这种方法生成的激励源具有很强的规律性,且失去了发声过程中基频连续变化的特性,因此使用这种方法合成的语音在听感上具有机械感,要获得更加自然的语音则需要更多的参数。
近年来,随着人工智能技术的普及,深度学习技术在图像处理领域得到广泛地应用,并在语音识别领域取得了一些成果,但尚未见将深度学习技术应用于视频处理并获得语音信号相关特征的研究,而已有的通过图像特征拟合经验公式获取共振峰频率的技术,其流程繁琐且结果误差较大。
发明内容
本发明的目的在于针对上述现有技术存在的问题,提供一种基于语音雷达和深度学习的语音合成方法及系统。
实现本发明目的的技术解决方案为:一种基于语音雷达和深度学习的语音合成方法,包括以下步骤:
步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;
步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续M帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;
步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的N组共振峰参数;
步骤4,对步骤1获得的语音合成激励源和步骤3获得的N组共振峰参数进行语音合成,得到高自然度的合成语音信号。
进一步地,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:
步骤1-1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;
步骤1-2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号S;
步骤1-3,利用经验小波变换算法对信号S进行模式分解,分解后的第k个模式fk(t)表示为:
式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波X=f1(t);
步骤1-4,根据合成需求,将基波分为m帧,对第i帧的信号X(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:
式中,C为削波电平。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011492591.0/2.html,转载请声明来源钻瓜专利网。