[发明专利]基于CDNN-HMM的中英文民航陆空通话声学模型构建方法在审

申请号：	201910717450.5	申请日：	2019-08-05
公开（公告）号：	CN110390929A	公开（公告）日：	2019-10-29
发明（设计）人：	张海刚;刘远庆;杨金锋	申请（专利权）人：	中国民航大学
主分类号：	G10L15/14	分类号：	G10L15/14;G10L15/16
代理公司：	天津才智专利商标代理有限公司 12108	代理人：	庞学欣
地址：	300300 天***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	陆空声学模型中英文民航通话神经网络构建预处理卷积神经网络通话语音信号模型训练声学特征特征构建一维卷积语音信号解码错误率有效地语料库卷积帧率分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：所述的方法包括按顺序进行的下列步骤：

步骤1)建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库；

步骤2)对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理；

步骤3)从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征；

步骤4)对上述民航陆空通话语音信号的声学特征进行线性判别分析、特征空间最大似然回归变换以及说话人自适应训练变换处理，获得Tran-Fbank特征；

步骤5)利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型。

2.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤1)中，所述的建立由中文数据集和英文数据集构成的中英文民航陆空通话语料库的方法是：根据民航陆空通话标准，利用实际陆空通话语音信号和相关课程教材的内容建立中英文民航陆空通话语料库；该语料库由空管专业人员与一线工作管制员共同录制，包含多条飞行各个阶段的中英文民航陆空通话语音信号，并标注出民航陆空通话语音信号对应的文本序列和音素信息。

3.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤2)中，所述的对上述中英文陆空通话语料库中的中英文民航陆空通话语音信号进行预处理方法是：通过预加重来提升民航陆空通话语音信号的高频分量，增大特征分辨率；然后将民航陆空通话语音信号进行分帧加窗处理，此处加入低帧率，即帧长设置为30ms，帧移设置为15ms。

4.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤3)中，所述的从上述预处理后的中英文民航陆空通话语音信号中提取出Fbank特征并作为民航陆空通话语音信号的声学特征的方法是：

1)对上述预处理后的每一帧中英文民航陆空通话语音信号进行离散傅里叶变换，获得民航陆空通话语音信号的频域表达，即线性频率f，然后将线性频率f转换为倒谱域的Mel频率，公式如下：

2)在Mel频谱范围内设置39个等带宽的三角状带通滤波器，然后将Mel频谱输入到这39个三角状带通滤波器中，分别计算出这39个三角状带通滤波器输出的对数能量与每一帧中英文民航陆空通话语音信号的能量，构成一个40维的Fbank特征。

5.根据权利要求1所述的基于CDNN-HMM的中英文民航陆空通话声学模型构建方法，其特征在于：在步骤5)中，所述的利用步骤4)获得的Tran-Fbank特征构建基于CDNN-HMM的中英文民航陆空通话声学模型的方法是：

将卷积神经网络引入到深度神经网络中共同构成卷积深度神经网络，其中卷积神经网络主要用来处理声学特征，利用其在时间和空间上的平移不变性卷积来克服语音信号本身的多样性；深度神经网络则是用来对音素进行分类；同时根据中英文民航陆空通话语料库中标注的音素信息，将民航陆空通话的各个音素映射到HMM结构的各个状态上，音素序列随时间变化的过程就构成了HMM状态转移过程；最后，每个声学特征的HMM状态与卷积深度神经网络的softmax函数输出相对应，由此完成基于CDNN-HMM的陆空通话语音识别声学模型的构建。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国民航大学，未经中国民航大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910717450.5/1.html，转载请声明来源钻瓜专利网。

上一篇：一种自动拓增语料的语音合成模型训练方法和系统
下一篇：一种音频文字校对的方法和系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于CDNN-HMM的中英文民航陆空通话声学模型构建方法在审

专利文献下载