[发明专利]一种全端到端的中英文混合空管语音识别方法及装置有效
申请号: | 202011147669.5 | 申请日: | 2020-10-23 |
公开(公告)号: | CN112420024B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 林毅;杨波;张建伟 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/00;G10L15/20;G10L19/04;G10L25/30 |
代理公司: | 四川力久律师事务所 51221 | 代理人: | 冯精恒 |
地址: | 610065 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 全端到端 中英文 混合 语音 识别 方法 装置 | ||
本发明涉及民用航空空中交通管制和语音识别领域,特别是一种全端到端的中英文混合空管语音识别方法及装置。本发明通过特征学习模块预先提取语音特征,使所述中英文混合空管语音识别模型能提取出更具鉴别性的语音特征,更好地适应不同场景下的语音信号;在原始语音信号到可读指令文本的处理范式中,运用统一的框架解决中英文混合语音识别问题,可以避免现有独立识别系统中语种属性判断环节,简化了混合语音识别的系统架构,也使得语音特征能更合理有效的应用到所述模型的识别中,从而准确判定发音和词义,提高了混合语音识别性能及其实用性。
技术领域
本发明涉及民用航空空中交通管制和语音识别领域,特别是一种全端到端的中英文混合空管语音识别方法及装置。
背景技术
在民用航空空中交通管制领域,管制员与飞行员之间通过无线电电台以语音通话的方式进行实时的沟通和协调以保证局部空中交通运行安全。在目前管制体制中,管制通话语音通过VHF(甚高频Very High Frequency)传输,其可靠性极大地影响了管制通话语音的质量,进而影响语音识别的性能。此外,由于通信资源有限,管制员一般通过同一通信频率与其管制扇区内的多个管制员进行通话。因此,同一通信频率(信道)中的说话人、通信设备误差、传输环境一直处于变化状态,这也会导致通信信道中的语音特征处于变化状态。所述的空管语音特点对语音识别的特征工程方法提出了巨大的挑战,要求其能够在不同传输条件下提取鲁棒性的特征支撑语音识别模型。综上所述,解决复杂空管环境下的语音特征表示是提高语音识别性能的关键步骤。
同时,按照国际民航组织相关规定,英语是空中交通管制的通用语言。我国民航管制由于历史发展原因,管制员在指挥国内航班时一般使用中文通话,指挥国际航班时则使用英文通话。此外,我国民航管制过程中存在大量以英文命名的地标点、跑道号等词汇,这些词汇在管制过程中也需要使用英文通话表述。也就是说,我国民航管制过程中,同一管制指令会出现中英文混合通话的情况。例如,“echo echo八november charlie alpha两前等国航四四五两”。由于中英文属于不同的语种,其发音和词汇呈现出完全不同的特征。因此,研究具有相同尺度的中英文声学建模是实现中英文混合识别的关键步骤;解决中英文词汇分布的不均匀问题也是提高空管语音识别性能的必要手段;而中英文混合识别也是空管语音识别必要解决的关键技术问题。现有的语音识别方法一般针对单语种语音进行识别,且得到的语音信号质量差、特征分散,同时难以在中英文混合识别中准确判定发音和词义的尺度。
鉴于上述问题,如今急需研究空管场景下中英文混合语音识别方法和模型结构及其训练问题,并解决现有技术中语音信号质量差、特征分散以及中英文混合识别中的发音和词义尺度问题,提高空管语音识别技术在应用和工程上的可用性以及可扩展性。
发明内容
本发明的目的在于克服现有技术中所存在的语音信号质量差、特征分散,同时难以在中英文混合识别中准确判定发音和词义的尺度的问题,提供一种全端到端的中英文混合空管语音识别方法及装置。
为了实现上述发明目的,本发明提供了以下技术方案:
一种全端到端的中英文混合空管语音识别方法,其特征在于,包括以下步骤:
a:采集空管语音并对所述空管语音进行预处理;其中,所述空管语音为中英文混合的音频数据;
b:将所述空管语音输入到预先建立的中英文混合空管语音识别模型;
c:输出所述空管语音对应的指令信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011147669.5/2.html,转载请声明来源钻瓜专利网。