[发明专利]基于生成式听觉模型的端到端汉语方言识别系统和方法有效
申请号: | 201811228307.1 | 申请日: | 2018-10-22 |
公开(公告)号: | CN109256118B | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 齐诏娣;马勇;顾明亮;金赟 | 申请(专利权)人: | 江苏师范大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/06;G10L15/00 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 221000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 听觉 模型 端到端 汉语 方言 识别 系统 方法 | ||
1.一种基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,包括以下步骤:
步骤一、构建各地方言数据集并进行标注,其中包括训练集与测试集;
步骤二、对训练集和测试集中各语音数据进行预加重、分帧和加窗处理,并为每一话语进行标签,其中,标签信息表示对应话语的所属地区;
步骤三、构建基于生成式听觉模型的RNN方言识别系统,其网络结构依次为输入层、生成式听觉模型、RNN层、全连接层和softmax层,所述生成式听觉模型使用卷积神经网络模拟听觉模型,使用固定核函数从原始声音时间波形中提取出深层次语言特征;所述生成式听觉模型分为两个阶段,第一阶段模仿听觉系统的外围功能,将声音表示为内部神经元活动;第二阶段模拟听觉皮层,来分析内部特征从而提取更高层次的特征;所述生成式听觉模型各层依次为一维卷积层、合并层、二维卷积层;一维卷积层由36个一维内核组成,以类似于耳蜗滤波的方式执行时域卷积来用于模拟外围听觉系统耳蜗滤波器,固定时长的时域声音波形首先通过一组恒定带通滤波器,然后通过非线性压缩模块和横向抑制网络,最后通过包络提取器;非线性压缩模拟内毛细胞引起的饱和度,横向抑制网络模拟听觉的频率掩蔽;二维卷积层模拟皮层滤波,它由24个二维核组成,将由上层合并得来的类似声谱图的语音信号输入至其中,分解谱图;然后,选择性在其后加入池化层用于降低输出维度,同时保留重要信息,即得到我们需要的语音深层次的语言特征;
步骤四、使用梯度下降法和反向传播算法训练所属网络系统;
步骤五、训练完成后,得到汉语方言识别训练系统的识别率。
2.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤一中训练集与测试集的比例为7:3。
3.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤二中对数据集进行分帧,帧长为22ms,帧移为10ms。
4.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤3中softmax层的输出层节点个数与需要分类的方言数据集的类别总数相同。
5.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤四中梯度下降算法的具体步骤为:从任意一点出发,沿该点的梯度反方向移动到新位置,再沿新位置的梯度反方向运行至另一个新位置,循环迭代以上步骤,输出的函数解则一直朝下坡最陡的方向运动,直到运行到函数的局部最小点,即损失函数最小值。
6.根据权利要求1所述的基于生成式听觉模型的端到端汉语方言识别方法,其特征在于,步骤五中分批次对所有样本进行训练,不断更新权值,直到损失函数的值收敛于一个稳定区域内的值,即识别率收敛于一个稳定值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏师范大学,未经江苏师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811228307.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音数据处理方法及装置
- 下一篇:用于改进车辆语法的语音识别用户宏