[发明专利]一种基于多任务学习提高方言识别准确率的分类识别方法有效
申请号: | 201910043686.5 | 申请日: | 2019-01-17 |
公开(公告)号: | CN109829058B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 王海;秦晨光;张晓;任哲;赵子鑫;高岭;任杰;郑杰 | 申请(专利权)人: | 西北大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F18/214;G06N3/084 |
代理公司: | 西安西达专利代理有限责任公司 61202 | 代理人: | 刘华 |
地址: | 710069 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于多任务学习提高方言识别准确率的分类识别方法。首先提取各类方言音频的多种语音特征,接着利用提取到的特征信息输入神经网络模型进行训练得到各类方言的神经网络模型。然后提出了一种基于方言音频特征选择和模型选择的融合筛选方法。选择出一组分类性能最好的单模型,再在该单模型的基础上使用多任务学习方法,通过联合训练得到不同方言语种的多任务神经网络模型,进而提高总体方言分类的准确率。最后在方言分类的结果基础之上,将方言输入到该方言语种特定的语言模型上,实现方言翻译语音转写等功能。 | ||
搜索关键词: | 一种 基于 任务 学习 提高 方言 识别 准确率 分类 方法 | ||
【主权项】:
1.一种基于多任务学习提高方言识别准确率的分类识别方法,其特征在于,包括以下步骤:基于方言音频的两种常用特征MFCC和FBank,用HTK工具包或者Kaldi语音识别工具提取出方言音频的MFCC特征和Fbank特征,产生三组特征集合分别为:MFCC、Fbank、MFCC+Fbank(以下简称MF);2)在基于步骤1)处理后,得到的特征集合结合以下模型做最优单模型筛选,模型包含:DNN、LSTM、BiLSTM、GRU、ResNet18、ResNet50,将特征集合和模型的组合成十八种组合模型,对十八种组合模型分别进行训练,根据方言识别的错词率和正确率的判别准则考量模型优劣进行排序,找到一个最优的组合模型并定义为Linearly Language Net模型,简称LLN模型;所述的十八种组合模型组合如下:M‑D、F‑D、MF‑D、M‑L、F‑L、MF‑L、M‑BL、F‑BL、MF‑BL、M‑G、F‑G、MF‑G、M‑R18、F‑R18、MF‑R18、M‑R50、F‑R50、MF‑R50,其中,M表示MFCC,F表示Fbank,MF表示MFCC+Fbank;D表示DNN,L表示LSTM,BL表示BiLSTM,G表示GRU,R18表示ResNet18,R50表示ResNet50;3)根据步骤2)的方法将每个语种训练出一个LLN模型,每个LLN模型会有一个该模型即该语种的loss损失函数,将每个LLN模型的最后一层输入到同一层神经元,之后再经过两层的全连接层,联合训练所有LLN任务,联合loss的训练准测公式为:其中,Losssum表示所有任务总的loss损失,n代表任务个数,LT表示任务T的loss;4)将总的loss联合起来迭代训练反向传播,应用多任务学习方法训练整个模型,最后通过输出分类准确率考量模型的识别性能,在具体的测试应用时候可输出每条方言音频的分类标签;5)根据步骤4)的分类标签,得到对应音频的分类结果,并且由步骤3)得到了每类语种的声学模型,对不同的语种搭建属于该语种的语义字典,然后利用对应音频的文本库搭建每类语种的语言模型,最后,在模型表列查找该结果对应的语种,然后找到其对应的语言模型,结合搜索字典和解码器,最终输出对应音频的预测文本,完成语音识别任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北大学,未经西北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910043686.5/,转载请声明来源钻瓜专利网。