[发明专利]一种跨信道语种识别方法及系统在审
申请号: | 202210853619.1 | 申请日: | 2022-07-11 |
公开(公告)号: | CN115206288A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 米吉提·阿不里米提;迪力扎提·伊力哈木;哈妮克孜·伊拉洪;艾斯卡尔·艾木都拉 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 苑军茹 |
地址: | 830046 新疆维吾*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信道 语种 识别 方法 系统 | ||
本发明涉及自然语言处理技术领域,特别是涉及一种跨信道语种识别方法及系统,方法包括:获取历史数据集;所述历史数据集为基于不同设备、不同环境和不同信噪比得到的若干个语音数据;对所述历史数据集进行特征提取,得到特征数据集;基于所述特征数据集对识别模型进行训练,得到训练好的识别模型;所述识别模型包括双向长短时记忆网络和注意力机制网络;基于训练好的识别模型对待识别语音进行识别,得到待识别语音的语种。本发明搭建基于注意力机制的双向长短时记忆网络,降低了跨信道对识别性能的的影响。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种跨信道语种识别方法及系统。
背景技术
语种识别又称语种辨识,是指由机器自动判断一个语音片段所属某个语言种类(如,粤语、普通话、英语、日语等)的过程。
语种识别技术的研究最早可追溯至20世纪70年代,语种识别技术经过几十年的发展,展现了巨大的应用价值和发展潜力,以使语种识别技术的应用领域越来越广泛,例如,语种识别技术可以应用在国际会议、紧急救援等应用场景下。
然而,现有的语种识别方法很少关注跨信道环境对识别造成的影响,各式各样的语音采集设备与传输信道差异,使得训练语音与测试语音之间存在信道失配的情况,导致语种识别性能急剧下降。
发明内容
有鉴于此,本发明提供了一种跨信道语种识别方法及系统,搭建基于注意力机制的双向长短时记忆网络,降低了跨信道对识别性能的的影响。
为实现上述目的,本发明提供了如下方案:
一种跨信道语种识别方法,包括:
获取历史数据集;所述历史数据集为基于不同设备、不同环境和不同信噪比得到的若干个语音数据;
对所述历史数据集进行特征提取,得到特征数据集;
基于所述特征数据集对识别模型进行训练,得到训练好的识别模型;所述识别模型包括双向长短时记忆网络和注意力机制网络;
基于训练好的识别模型对待识别语音进行识别,得到待识别语音的语种。
优选地,所述对所述历史数据集进行特征提取,得到特征数据集,包括:
对所述历史数据集中的任一语音数据,执行下述过程,得到特征数据,遍历所述历史数据集,得到所述特征数据集;
对所述语音数据依次进行预加重、分帧和加窗,得到预处理数据;
对所述预处理数据进行傅里叶变换得到频谱数据;
对所述频谱数据进行Mel滤波,得到Mel频谱数据;
对所述Mel频谱数据进行对数变换,得到所述特征数据。
优选地,所述双向长短时记忆网络包括前向隐藏层、后向隐藏层和记忆输出层;
所述注意力机制网络包括注意力层、权重层、上下文向量层和注意力输出层;
将所述特征数据集中的特征数据输入所述前向隐藏层,得到前向隐藏状态向量;
将所述特征数据输入所述后向隐藏层,得到后向隐藏状态向量;
将所述前向隐藏状态向量和所述后向隐藏状态向量输入所述记忆输出层,得到隐藏状态向量;
将所述隐藏状态向量输入所述注意力层,得到注意力隐藏表示向量;
将所述注意力隐藏表示向量输入所述权重层,得到权重向量;
将隐藏状态向量和所述权重向量输入所述上下文向量层,得到上下文向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210853619.1/2.html,转载请声明来源钻瓜专利网。