[发明专利]基于振幅和相位信息的多目标学习的远场语音识别方法在审
申请号: | 201910134661.6 | 申请日: | 2019-02-23 |
公开(公告)号: | CN109767760A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 党建武;崔凌赫;王龙标;李东播 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/01;G10L21/0232;G10L21/0264 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程小艳 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于振幅和相位信息的多目标学习的远场语音识别方法,包括以下步骤:步骤一,输入数据准备;步骤二,提取振幅特征和多种相位特征;步骤三,构建多任务深度神经网络,将提取的振幅特征和相位特征输入到神经网络中训练,输出增强后语音以及增强后的特征。利用增强后的语音做SRMR评测,利用增强后的特征做语音识别。本发明利用了多目标学习的方法,同时增强了语音和特征,与现有的方法相比,考虑到了群延迟系统(MGDCC)特征在混响语音下的效果较差,增加了另一种相位特征基于相位域的源分离方法的声道信息(PBSFVT)来弥补MGDCC的不足,进而提高语音识别准确率。 | ||
搜索关键词: | 语音识别 相位特征 多目标 语音 神经网络 相位信息 振幅特征 远场 输入数据准备 评测 声道信息 输出增强 群延迟 相位域 源分离 准确率 构建 混响 学习 | ||
【主权项】:
1.基于振幅和相位信息的多目标学习的远场语音识别方法,其特征在于,包括以下步骤:1)输入数据准备:分别对训练集、开发集和验证集中的数据进行数据准备;2)特征提取:(1)基于振幅信息的特征提取:通过分帧、加窗,并对每一个短时分析窗,通过快速傅里叶变换将信号由时域转换到频域并且得到对应的频谱,然后使用Mel滤波器进行频率的过滤并且以此来模拟人类的感知系统;(2)基于相位信息的特征提取:提取每一帧语音的相位信息,包括群延迟系统MGDCC以及基于相位域的源分离方法的声道信息PBSFVT两种相位特征;3)模型训练:将提取到的特征输入到多目标的DNN中,多目标的DNN网络可以同时对两个不同的目标进行学习,从而模拟不同目标之间的共性和差异。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910134661.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种应用到端到端语音识别的CLDNN结构的建立方法
- 下一篇:唤醒词检测