[发明专利]基于振幅和相位信息的多目标学习的远场语音识别方法在审

专利信息
申请号: 201910134661.6 申请日: 2019-02-23
公开(公告)号: CN109767760A 公开(公告)日: 2019-05-17
发明(设计)人: 党建武;崔凌赫;王龙标;李东播 申请(专利权)人: 天津大学
主分类号: G10L15/16 分类号: G10L15/16;G10L15/01;G10L21/0232;G10L21/0264
代理公司: 天津市北洋有限责任专利代理事务所 12201 代理人: 程小艳
地址: 300072*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音识别 相位特征 多目标 语音 神经网络 相位信息 振幅特征 远场 输入数据准备 评测 声道信息 输出增强 群延迟 相位域 源分离 准确率 构建 混响 学习
【权利要求书】:

1.基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,包括以下步骤:

1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;

2)特征提取:

(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;

(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;

3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。

2.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤2)-(2)中基于相位信息的特征提取,包括群延迟系统MGDCC相位特征,具体提取过程如下:在进行语音信号处理的过程中,需要对语音信号的相位部分进行展开求解其负导数,其负导数称为群延迟系数(GDF);

群延迟函数其本质上是计算连续语谱图的导数的负数;

相位谱特征即非卷绕的相位谱特征可以表示为:

群延迟函数也同样可以被计算为下列的表述形式:

其中:下角标R和I分别表示的实部和虚部两个部分,和Y(ω)分别表示的是x(n)和nx(n)傅里叶转换之后的频域信息;

调整之后的群延迟系数可以计算为:

其中:S(ω)表示X(ω)的平滑版本;

减少频谱的尖峰特性,引入了两个新的变量α和γ来进行消除:

其中:α和γ,其取值范围均在0~1之间。

3.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤2)-(2)中基于相位信息的特征提取,包括基于相位域的源分离方法的声道信息PBSFVT两种相位特征,具体提取过程如下:

使用短时傅里叶变换X(ω)可以被分解为两种:全通相位以及最小相位两个部分:

X(ω)=|X(ω)|ejarg{X(ω)}=XMinPh(ω)XAllp(ω)

其中:XMinPh(ω)和XAllp(ω)分别表示傅里叶变换之后的X对应的最小相位部分和全通相位部分,并且最小相位和原始语音信号之间存在着下式的关系:

|X(ω)|=|XMinPh(ω)|

另一方面,最小相位和全通相位之间的关系为:

arg{X(ω)}=arg{XMinPh(ω)}+arg{XAllp(ω)}

通过希尔伯特变换将语音信号从振幅域变换到相位域中,获得最小相位特征:

通过傅里叶变换后,卷积关系会变成相乘关系,得到下列等式:

将最小相位特征以及声道信息处理方法结合起来,使用源滤波模型在最小相位域的操作进行源滤波操作进行信息分离,将最小相位语音信号分解为声源信息和声道信息,从而得到两者不同的模型。

4.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,所述步骤3)具体为:构建多任务深度神经网络,将提取的振幅特征和相位特征输入到神经网络中训练,输出增强后语音以及增强后的特征。

5.根据权利要求1所述的基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,还包括SRMR测评和语音识别,具体是将DNN输出的增强后的特征进行语音识别,从而得到词错误率,把输出的增强后的语音进行SRMR评测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910134661.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top