[发明专利]一种跨信道语种识别方法及系统在审
申请号: | 202210853619.1 | 申请日: | 2022-07-11 |
公开(公告)号: | CN115206288A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 米吉提·阿不里米提;迪力扎提·伊力哈木;哈妮克孜·伊拉洪;艾斯卡尔·艾木都拉 | 申请(专利权)人: | 新疆大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 苑军茹 |
地址: | 830046 新疆维吾*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信道 语种 识别 方法 系统 | ||
1.一种跨信道语种识别方法,其特征在于,包括:
获取历史数据集;所述历史数据集为基于不同设备、不同环境和不同信噪比得到的若干个语音数据;
对所述历史数据集进行特征提取,得到特征数据集;
基于所述特征数据集对识别模型进行训练,得到训练好的识别模型;所述识别模型包括双向长短时记忆网络和注意力机制网络;
基于训练好的识别模型对待识别语音进行识别,得到待识别语音的语种。
2.根据权利要求1所述的跨信道语种识别方法,其特征在于,所述对所述历史数据集进行特征提取,得到特征数据集,包括:
对所述历史数据集中的任一语音数据,执行下述过程,得到特征数据,遍历所述历史数据集,得到所述特征数据集;
对所述语音数据依次进行预加重、分帧和加窗,得到预处理数据;
对所述预处理数据进行傅里叶变换得到频谱数据;
对所述频谱数据进行Mel滤波,得到Mel频谱数据;
对所述Mel频谱数据进行对数变换,得到所述特征数据。
3.根据权利要求1所述的跨信道语种识别方法,其特征在于,所述双向长短时记忆网络包括前向隐藏层、后向隐藏层和记忆输出层;
所述注意力机制网络包括注意力层、权重层、上下文向量层和注意力输出层;
将所述特征数据集中的特征数据输入所述前向隐藏层,得到前向隐藏状态向量;
将所述特征数据输入所述后向隐藏层,得到后向隐藏状态向量;
将所述前向隐藏状态向量和所述后向隐藏状态向量输入所述记忆输出层,得到隐藏状态向量;
将所述隐藏状态向量输入所述注意力层,得到注意力隐藏表示向量;
将所述注意力隐藏表示向量输入所述权重层,得到权重向量;
将隐藏状态向量和所述权重向量输入所述上下文向量层,得到上下文向量;
所述注意力输出层基于softmax函数对所述上下文向量进行回归变换,得到识别结果;所述识别结果为语音数据对应的语种识别结果。
4.根据权利要求1所述的跨信道语种识别方法,其特征在于,所述基于训练好的识别模型对待识别语音进行识别,得到待识别语音的语种,包括:
采用如步骤“对所述历史数据集进行特征提取,得到特征数据集”对所述待识别语音进行特征提取,得到待识别特征;
将所述待识别特征输入到训练好的识别模型,得到待识别语音的语种。
5.一种跨信道语种识别系统,其特征在于,包括:
数据获取模块,获取历史数据集;所述历史数据集为基于不同设备、不同环境和不同信噪比得到的若干个语音数据;
特征提取模块,对所述历史数据集进行特征提取,得到特征数据集;
模型训练模块,基于所述特征数据集对识别模型进行训练,得到训练好的识别模型;所述识别模型包括双向长短时记忆网络和注意力机制网络;
语种识别模块,基于训练好的识别模型对待识别语音进行识别,得到待识别语音的语种。
6.根据权利要求5所述的跨信道语种识别系统,其特征在于,所述特征提取模块包括:
重复执行单元,对所述历史数据集中的任一语音数据,执行预处理单元至对数变换单元,得到特征数据,遍历所述历史数据集,得到所述特征数据集;
预处理单元,对所述语音数据依次进行预加重、分帧和加窗,得到预处理数据;
傅里叶变换单元,对所述预处理数据进行傅里叶变换得到频谱数据;
滤波单元,对所述频谱数据进行Mel滤波,得到Mel频谱数据;
对数变换单元,对所述Mel频谱数据进行对数变换,得到所述特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210853619.1/1.html,转载请声明来源钻瓜专利网。