[发明专利]基于生成式听觉模型的端到端汉语方言识别系统和方法有效
申请号: | 201811228307.1 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109256118B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 齐诏娣;马勇;顾明亮;金赟 | 申请(专利权)人: | 江苏师范大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G10L15/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 221000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 听觉 模型 端到端 汉语 方言 识别 系统 方法 | ||
本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,涉及语音识别技术领域。该汉语方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN中,再连接全连接层后进行softmax,用于预测方言类别。本发明公开的一种基于生成式听觉模型的端到端汉语方言识别系统和方法,可有效提高NN方言识别过程中的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于生成式听觉模型的端到端汉语方言识别系统和方法。
背景技术
在方言识别(DID)的应用中,已经有些许研究学者提出了用NN来解决方言识别问题,并且与传统的方法相比带来了显着的性能改进。比如在传统的方法中,由于人工设计的特征具有领域局限性,在某一领域的特征集不一定适应另一个领域,而NN在不同领域有一定的推广能力。接着,还出现了大量的变体NN,例如:前馈神经网络(FFNN)、递归神经网络(RNN)和时延神经网络(TDNN)。其中,RNN网络中的单元在接收到当前输入信息时也将其之前接收到的信息作为其输入,换句话说,就是把刚刚过去的事情联合现在的事情作为输入,来预测接下来会发生的事情,这给了它有限的短期记忆的优势,可以更好地学习语音的时间信息。随后,有研究者使用了LSTM取代了传统的RNN结构。此外,研究者们已经证明卷积神经网络(CNN)模型对于许多语音和语言处理应用是有效的。除了模型域,深度神经网络(DNN)也可以用于DID的特征域。例如:使用DNN来提取i-vector。
而在NN时代之前,从听觉模型中提取的特征已经应用于各种语音应用,并且已经证明比传统的语音处理特征更能抵抗噪声,其中,在听觉模型中基底膜模型的主要功能是带通滤波,它是对人耳听觉模型的系统进行有效的模拟。
然而,现存在的RNN方言识别模型虽然能够较好的提取语音的时间信息,但因为其使用特征为原始声学特征,从而对噪声的抵抗性较低。
因此,鉴于以上问题,有必要提出一种抗噪性能高的基于生成式听觉模型的端到端汉语方言识别系统,以提高方言识别率。
发明内容
为了克服传统的RNN汉语方言识别模型中底层声学特征的抗噪性能低问题,本发明提供一种基于生成式听觉模型的RNN方言识别系统,用CNN模拟听觉模型对方言时域声音波形进行特征提取,随后将提取出的固定长度特征序列输入至RNN 中,再连接全连接层后进行softmax,用于预测方言类别,可有效提高现存在的NN方言识别系统的抗噪性能,并因其提取了原始声音的深层次语言特征以及其模型具有一定的关注模型信息,所以在一定程度上也提高了方言识别率。
根据本发明的目的提出的一种基于生成式听觉模型的端到端汉语方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层以及softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征。
优选的,所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;所述一维卷积层由36个一维核组成,二维卷积层由24个二维核组成。
一种基于生成式听觉模型的端到端汉语方言识别方法,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征,所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811228307.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音数据处理方法及装置
- 下一篇:用于改进车辆语法的语音识别用户宏