[发明专利]基于CDNN-HMM的中英文民航陆空通话声学模型构建方法在审
申请号: | 201910717450.5 | 申请日: | 2019-08-05 |
公开(公告)号: | CN110390929A | 公开(公告)日: | 2019-10-29 |
发明(设计)人: | 张海刚;刘远庆;杨金锋 | 申请(专利权)人: | 中国民航大学 |
主分类号: | G10L15/14 | 分类号: | G10L15/14;G10L15/16 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 300300 天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 陆空 声学模型 中英文 民航 通话 神经网络 构建 预处理 卷积神经网络 通话语音信号 模型训练 声学特征 特征构建 一维卷积 语音信号 解码 错误率 有效地 语料库 卷积 帧率 分析 | ||
1.一种基于CDNN-HMM的中英文民航陆空通话声学模型构建方法,其特征在于:所述的方法包括按顺序进行的下列步骤:
步骤1)建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库;
步骤2)对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理;
步骤3)从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征;
步骤4)对上述民航陆空通话语音信号的声学特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理,获得Tran-Fbank特征;
步骤5)利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型。
2.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法,其特征在于:在步骤1)中,所述的建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库的方法是:根据民航陆空通话标准,利用实际陆空通话语音信号和相关课程教材的内容建立中英文民航陆空通话语料库;该语料库由空管专业人员与一线工作管制员共同录制,包含多条飞行各个阶段的中英文民航陆空通话语音信号,并标注出民航陆空通话语音信号对应的文本序列和音素信息。
3.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法,其特征在于:在步骤2)中,所述的对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理方法是:通过预加重来提升民航陆空通话语音信号的高频分量,增大特征分辨率;然后将民航陆空通话语音信号进行分帧加窗处理,此处加入低帧率,即帧长设置为30ms,帧移设置为15ms。
4.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法,其特征在于:在步骤3)中,所述的从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征的方法是:
1)对上述预处理后的每一帧中英文民航陆空通话语音信号进行离散傅里叶变换,获得民航陆空通话语音信号的频域表达,即线性频率f,然后将线性频率f转换为倒谱域的Mel频率,公式如下:
2)在Mel频谱范围内设置39个等带宽的三角状带通滤波器,然后将Mel频谱输入到这39个三角状带通滤波器中,分别计算出这39个三角状带通滤波器输出的对数能量与每一帧中英文民航陆空通话语音信号的能量,构成一个40维的Fbank特征。
5.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法,其特征在于:在步骤5)中,所述的利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型的方法是:
将卷积神经网络引入到深度神经网络中共同构成卷积深度神经网络,其中卷积神经网络主要用来处理声学特征,利用其在时间和空间上的平移不变性卷积来克服语音信号本身的多样性;深度神经网络则是用来对音素进行分类;同时根据中英文民航陆空通话语料库中标注的音素信息,将民航陆空通话的各个音素映射到HMM结构的各个状态上,音素序列随时间变化的过程就构成了HMM状态转移过程;最后,每个声学特征的HMM状态与卷积深度神经网络的softmax函数输出相对应,由此完成基于CDNN-HMM的陆空通话语音识别声学模型的构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民航大学,未经中国民航大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910717450.5/1.html,转载请声明来源钻瓜专利网。