[发明专利]一种赣方言语音和方言点识别方法有效
申请号: | 201810983923.1 | 申请日: | 2018-08-28 |
公开(公告)号: | CN109410914B | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 徐凡;罗健;王明文 | 申请(专利权)人: | 江西师范大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/14;G10L25/30 |
代理公司: | 南昌市平凡知识产权代理事务所 36122 | 代理人: | 马彩凤 |
地址: | 330022 *** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 方言 语音 识别 方法 | ||
本发明公开了一种赣方言语音和方言点识别方法,包括预先构建赣方言语音识别模型,通过赣方言语音识别模型接收待识别的赣方言语音;对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC特征向量;通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;构建赣方言点识别模型通过赣方言点识别模型对赣方言点进行识别。该方法采用DNN替换传统的GMM对HMM状态的发射概率进行建模,通过卷积神经网络框架对输入的赣方言语音进行识别,可以识别出其对应的方言汉字文本和其归属的片区,同时还可以识别出其所在的方言点。
技术领域
本发明涉及一种语音识别方法及转换系统,特别涉及一种赣方言语音和方言点识别方法。
背景技术
语音是人类最自然的特征之一,也是最直接的交互手段。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。目前很多语音识别的声学建模通常是指从语音波形中计算得出的特征向量序列建立统计陈述的过程。目前语音识别多为普通话,而方言作为一个地方特色语言,有一大批人还在使用,特别是一些年龄比较大的人不会说普通话只会说方言,因此无法使用语言识别。且随着社会发展,越来越多软件:如输入法、导航软件都要使用到语言识别,方言的识别需求已经越来越强烈需求量也越来越大。赣方言作为江西方言,历史悠久,是唐宋以前中原移民的中原话和赣地先民语言相互融合的产物,形成于汉朝,定型于唐宋。主要包括赣语、客家语、江淮官话,方言间混淆度很大,这无疑给赣语方言种类识别带来了较大的挑战。
发明内容
为解决上述问题,本发明的目的在于提供一种赣方言语音和方言点识别方法,采用DNN(Deep Neural Network)替换传统的GMM(Gaussian Mixture Mode)对HMM(HiddenMarkov Model)状态的发射概率进行建模,基于Kaldi实现了赣方言的HMM-DNN(HiddenMarkov Model-Deep Neural Network)模型,结合我们标注的赣方言语音和文字语料库,采用5倍交叉验证进行赣方言语音和方言点识别任务,用最新深度学习卷积神经网络框架对输入的赣方言语音进行识别,可以识别出其对应的方言汉字文本和其归属的片区,同时还可以识别出其所在的方言点。
为实现上述目的,本发明通过以下技术方案来实现:
一种赣方言语音和方言点识别方法,其特征在于,包括预先构建赣方言语音识别模型,所述赣方言语音识别模型由前端信号处理模块、语言解码和搜索算法模块、声学模型、发音词典、语言模型构成,所述语言解码和搜索算法模块主要将声学信号解码成理想情况下接近源词序列的词序列,通过使用声学模型和语言模型生成具有最大后验概率输入特征向量的词序列,所述声学模型构建方式为通过建立赣方言语音语料库后通过声学模型训练而成,所述语言模型构建方式为通过建立赣方言文本语料库后通过语言模型训练而成,所述发音字典模块为赣方言发音词典,主要包含赣方言句子以及它对应的声母、韵母和声调信息;
赣方言语音识别模型接收待识别的赣方言语音;
对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC(Mel Frequency Cepstral Coefficients)特征向量;
通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;
构建赣方言点识别模型,采用CNN网络结构(Convolution Neural Network)混合建模,首先以赣方言语音识别模型识别出来的赣方言汉字为基础,利用word2vec工具将其转换成汉字向量;其次利用赣方言语音中抽取出MFCC特征,对识别出的赣方言文本和语音两种类型的向量进行拼接,将此向量作为CNN的输入,并将卷积层的过滤大小分别设置为3、4和5;然后将卷积层后的向量利用最大池化策略降维;最后采用dropout防止模型过拟合,并利用Softmax对赣方言点进行识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江西师范大学,未经江西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810983923.1/2.html,转载请声明来源钻瓜专利网。