[发明专利]一种中文民航空中交通管制语音识别方法及系统在审
申请号: | 202110467893.0 | 申请日: | 2021-04-28 |
公开(公告)号: | CN113160798A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 罗林开;俞涵;张松飞;彭洪;黄俊祥;江居旺 | 申请(专利权)人: | 厦门大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/26;G10L15/16;G10L15/06;G10L25/24;G08G5/00;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张琳丽 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 民航 空中 交通 管制 语音 识别 方法 系统 | ||
本发明公开了一种中文民航空中交通管制语音识别方法及系统。该方法包括:获取语音特征数据,语音特征数据为基于语音信号提取得到的时序特征信息;将语音特征数据输入经训练的声学模型,得到识别结果,识别结果表示语音信号对应的空中交通管制中文术语文字;声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层和CTC模块,TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,BiGRU模块包括双向门控循环单元网络,CTC模块包括连接时序分类层,声学模型由带有中文文字标签的空管指令术语语音样本训练得到。本发明具有识别准确度高的优势。
技术领域
本发明涉及语音识别技术领域,特别是涉及一种中文民航空中交通管制语音识别方法及系统。
背景技术
空中交通管制主要对地面滑行和航线飞行的飞机进行指挥和调度,是空中交通安全和效率的重要保障,其对空中交通管制人员的依赖极强。空中交通管制人员和机组人员之间的陆空通话与飞行安全密切相关,有必要将陆空通话转化为文本记录并存档。
应用在中文民航空中交通管制语音识别领域的现有语音识别技术主要是基于深度学习的“CLDNN”神经网络,由多层CNN、多层LSTM、多层全连接神经网络组成,但现有技术方案的识别准确度还有待提高。
发明内容
本发明的目的是提供一种识别准确度高的中文民航空中交通管制语音识别方法及系统。
为实现上述目的,本发明提供了如下方案:
一种中文民航空中交通管制语音识别方法,包括:
获取语音特征数据,所述语音特征数据为基于语音信号提取得到的时序特征信息;
将所述语音特征数据输入经训练的声学模型,得到识别结果,所述识别结果表示所述语音信号对应的空中交通管制中文术语文字;所述声学模型包括:依次连接的TRM模块、BiGRU模块、全连接层和CTC模块,所述TRM模块包括依次连接的多头自注意力层、第一残差连接和层标准化层、前馈层以及第二残差连接和层标准化层,所述BiGRU模块包括双向门控循环单元网络,所述CTC模块包括连接时序分类层,所述声学模型由带有中文文字标签的空管指令术语语音样本训练得到。
可选的,在所述获取语音特征数据之前,还包括:
对所述语音信号进行分帧操作,得到多个语音帧;
根据所述语音帧,确定所述语音特征数据;每一所述语音特征数据对应多个连续的语音帧。
可选的,每一所述语音特征数据对应一基准语音帧以及所述基准语音帧前设定数量的语音帧和所述基准语音帧后设定数量的语音帧。
可选的,当所述基准语音帧为所述语音信号的前m帧或后n帧时,分别在所述基准语音帧所属的语音特征数据前补零或后补零,以使各所述语音特征数据的数据长度相同,其中,m和n均为正整数。
可选的,所述根据所述语音帧,确定所述语音特征数据,具体包括:
对所述语音帧进行采样,得到多个采样点;
基于所述采样点,确定所述语音特征数据,每一所述语音特征数据对应多个连续语音帧中的采样点。
可选的,所述语音特征数据为语音的梅尔频率倒谱系数。
可选的,在对所述语音信号进行分帧操作之前,还包括:
对所述语音信号进行去静音处理。
可选的,所述语音信号中相邻语音帧具有设定比例的重叠区域。
本发明还提供了一种中文民航空中交通管制语音识别系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110467893.0/2.html,转载请声明来源钻瓜专利网。