[发明专利]语种识别方法、装置、设备及存储介质在审
申请号: | 202110593396.5 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113327584A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 秦冲;魏韬;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/16;G10L15/06;G10L15/02 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 张传义 |
地址: | 518057 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语种 识别 方法 装置 设备 存储 介质 | ||
1.一种语种识别方法,其特征在于,包括:
获取样本音频和所述样本音频对应的音频标签;
对所述样本音频进行数据处理,得到所述样本音频对应的特征矩阵;
将所述特征矩阵输入第一神经网络,得到所述特征矩阵对应的帧内特征;
将所述特征矩阵输入第二神经网络,得到所述特征矩阵对应的帧间特征;
根据所述帧内特征和所述帧间特征进行逻辑回归,以对所述样本音频进行语种识别,得到所述样本音频的预测类别;
基于所述样本音频的预测类别和所述音频标签对所述第一神经网络和所述第二神经网络进行迭代训练,将训练完成的第一神经网络和训练完成的第二神经网络合并得到语种识别模型,并基于所述语种识别模型对待识别语音进行语种识别。
2.根据权利要求1所述的语种识别方法,其特征在于,所述将所述特征矩阵输入第一神经网络,得到所述特征矩阵对应的帧内特征,包括:
将所述特征矩阵输入第一神经网络,得到多个输出特征,对多个所述输出特征进行平均,得到帧内特征;或者
将所述特征矩阵输入第一神经网络,得到多个输出特征,将多个所述输出特征作为帧内特征。
3.根据权利要求1所述的语种识别方法,其特征在于,所述对所述样本音频进行数据处理,得到所述样本音频对应的特征矩阵,包括:
对所述样本音频进行音频采样,得到采样信号,所述音频采样包括抽样、量化和编码;
对所述采样信号进行预处理,得到预处理后的信号,所述预处理包括预加重、分帧、加窗中的至少一种;
对所述预处理后的信号进行特征提取,得到特征矩阵。
4.根据权利要求3所述的语种识别方法,其特征在于,所述对所述预处理后的信号进行特征提取,得到特征矩阵,包括:
对所述预处理后的信号进行傅里叶变换,得到频域信号;
将所述频域信号通过梅尔滤波器,并取对数功率,从而得到单帧特征;
基于所述频域信号的帧数和所述单帧特征得到特征矩阵。
5.根据权利要求1所述的语种识别方法,其特征在于,所述根据所述帧内特征和所述帧间特征进行逻辑回归,以对所述样本音频进行语种识别,得到所述样本音频的预测类别,包括:
对所述帧内特征和所述帧间特征进行拼接融合,得到拼接特征;
基于所述拼接特征进行逻辑回归,对所述拼接特征对应的样本音频进行打分,以根据所述样本音频的得分确定所述样本音频的预测类别。
6.根据权利要求1所述的语种识别方法,其特征在于,所述方法还包括:
统计所述样本音频的识别正确的正确数量和所述样本音频的总数量,并给予所述正确数量和所述总数量计算所述样本音频的识别准确率;
若所述识别准确率大于或等于预设阈值,则完成对所述第一神经网络和所述第二神经网络的训练;
其中,若所述样本音频的预测类别和所述样本音频的音频标签相同,则确定对所述样本音频的识别结果为识别正确。
7.根据权利要求1所述的语种识别方法,其特征在于,所述第一神经网络包括使用一维空洞卷积神经网络构建的五层编码器,所述第二神经网络包括使用一维空洞卷积神经网络构建的五层编码器和自回归模型,其中,所述自回归模型为隐藏层特征为256维度的前向传播网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110593396.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音合成方法、装置、设备及存储介质
- 下一篇:显示面板及显示装置