[发明专利]一种深度特征融合的地域性口音识别方法及装置有效

申请号：	201911051663.5	申请日：	2019-10-31
公开（公告）号：	CN111091809B	公开（公告）日：	2023-05-23
发明（设计）人：	计哲;黄远;高圣翔;孙晓晨;戚梦苑;宁珊;徐艳云	申请（专利权）人：	国家计算机网络与信息安全管理中心;中国科学院信息工程研究所
主分类号：	G10L15/00	分类号：	G10L15/00;G10L15/02;G10L15/08;G06F18/2411;G06F18/214;G06F18/25
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	程琛
地址：	100029***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种深度特征融合地域性口音识别方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种深度特征融合的地域性口音识别方法和装置，方法包括：提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；将瓶颈BN特征和滑动差分倒谱SDC特征输入预先训练后的支持向量机SVM分类器中，得到输出的待识别语音的语音类别。本发明采用多特征融合的语种识别系统，提取语音的深度特征，融合传统的SDC特征，输入SVM分类器，实现更鲁棒的语种识别功能，取得了对地域性方言普通话较好的分类效果。

技术领域

本发明属于语音识别技术领域，尤其涉及一种深度特征融合的地域性口音识别方法及装置。

背景技术

目前，中文的连续语音识别、语音关键词检索、语音转文本等语音识别引擎经多年的训练，已经可以针对电话信道中的标准普通话达到了良好的识别效果。

但是在实际工作中，大量电话语音具有明显的地域性特征，如广东、福建一带，现有的基于标准普通话训练的语音识别引擎在处理话音时，识别效果相对较差，识别正确率较低，严重影响识别效果以及对其转写内容的意图判别，因此需要一种针对地域性口音分类的语种识别技术，对语音进行预先分类和筛选，以提高后续语音识别等任务的效率和准确率。

发明内容

为克服上述现有问题或者至少部分地解决上述问题，本发明实施例提供一种深度特征融合的地域性口音识别方法及装置。

根据本发明实施例的第一方面，提供一种深度特征融合的地域性口音识别方法，包括：

提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

将所述瓶颈BN特征和滑动差分倒谱SDC特征输入预置的支持向量机SVM分类器中，得到输出的所述待识别语音的语音类别；

所述预置的支持向量机SVM分类器为，以标注有高斯超向量GSV的每一类别的地域性口音普通话数据的训练样本训练得到。

在上述技术方案的基础上，本发明还可以作出如下改进。

进一步的，所述提取待识别语音的瓶颈BN特征包括：

将所述待识别语音输入预置的深度信念网络DBN，得到输出的所述待识别语音的瓶颈BN特征；

所述预置的深度信念网络DBN为，以包含有每一类别的地域性口音普通话数据以及提取的瓶颈BN特征的训练样本训练得到。

进一步的，通过如下方式对所述深度信念网络DBN进行训练得到所述预置的深度训练网络DBN：

利用语音训练集，基于限制玻尔兹曼机RBM堆叠方法对所述深度信念网络DBN进行学习训练，其中，所述语音训练集中包括每一类别的地域性口音普通话数据以及提取的瓶颈BN特征；