[发明专利]一种针对民航陆空通话领域的基于迁移学习的语音识别方法在审
申请号: | 201910571280.4 | 申请日: | 2019-06-25 |
公开(公告)号: | CN112133290A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 杨群;孙修松;刘绍翰 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/14;G10L15/16;G10L15/26;G10L25/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 民航 陆空 通话 领域 基于 迁移 学习 语音 识别 方法 | ||
本发明公开一种针对民航陆空通话领域的基于迁移学习的语音识别方法。方法包括:收集通用数据集和迁移数据集并做数据处理;初始化神经网络,采用时延神经网络‑隐马尔可夫模型作为声学训练模型;使用通用数据集进行语音识别训练,得到中文语音识别通用声学模型;对所述迁移数据集在通用中文语音识别模型上进行训练并调整参数,得到民航陆空通话领域中文语音识别声学模型;扩充民航领域文本语料,生成语言模型。发明的基于迁移学习的方法能有效利用该领域外的数据,相较于普通声学模型识别效果有很大提高。采用本发明的方法能够解决民航陆空通话领域中文语料不足的问题,提高民航陆空通话的准确性。
技术领域
本发明涉及迁移学习领域,特别是涉及一种针对民航陆空通话领域的基于迁移学习的语音识别方法。
背景技术
近年来,国民经济的发展促进了我国民航事业不断发展,在航班数量明显增加的同时也对民航安全提出了新的考验。民航陆空对话作为飞行员与空中交通管制员(后简称“管制员”) 一种重要的通信方式,得到了前所未有的重视。从民航陆空对话方式来看,在现役的民航通信设备的基础上,为使航空器安全、高效地运行,管制员和飞行员必须准确、清晰地理解双方的语音意图,从而保证导航指令准确无误地得到传递。因此,长期以来,管制员指令下达标准与否以及管制员和飞行员之间的地空语音对话内容是否相互一致是一个直接关系航空器的飞行安全的重大问题。如何更好的保持地空对话,也成为关系民航事业发展的关键一步。
在所有民航事故中,由于陆空对话失误产生的安全事故举不胜举。例如2010年发生在德国的的乌伯林根空难,该次空难共造成71人死亡。事故调查结果显示,导致此次空难发生的最主要原因是陆空对话错误,具体包括用语不规范、飞行员理解失误等方面。在我国,1993年发生在新疆乌鲁木齐机场的一次事故至今令人心有余悸,管制员发出高度表拨正值指令,而飞行员错误的把它当作高度值处理,最终导致机毁人亡的惨剧。事后调查发现,管制员通话用语不规范、飞行员错误理解也是此次飞行空难的主要诱因。
为减少陆空对话错误,国际民航组织及各国民航管理机构虽然不断改进陆空对话的标准,但由陆空对话失误导致的飞行事故及事故症候仍不断发生。由此可见,加强陆空对话内容的智能校验技术的研究对减少飞行事故和事故征候具有重大、迫切的现实意义。
发明内容
本发明的目的是提供一种针对民航陆空通话领域的基于迁移学习的语音识别方法,提高民航陆空通话的准确性。
为实现上述目的,本发明提供了如下方案:
收集通用数据集和迁移数据集并做数据处理。
初始化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型。
使用通用数据集进行语音识别训练,得到中文语音识别通用模型。
对所述迁移数据集在通用中文语音识别模型上进行训练并调整参数,得到民航陆空通话领域中文语音识别模型。
扩充民航领域文本语料,生成语言模型。
可选的,收集通用数据集和迁移数据集并做数据处理,具体包括:
选取语料充足的通用中文语料库;
对语料库中语音进行端点检测并切除语音首尾的静音部分;
对语料库中语音文件进行数据增强,进一步扩大语料库;
对剩下的包含人声的语料进行语音信号预加重及傅里叶变换等操作提取语音信号的梅尔频率倒谱特征向量。
训练声学特征高斯混合模型,并将特征向量与对应音素对齐。
可选的,初试化神经网络,采用时延神经网络-隐马尔可夫模型作为声学训练模型,具体包括:
选择合适的神经网络激活函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910571280.4/2.html,转载请声明来源钻瓜专利网。