[发明专利]嵌入式系统的汉英双语语音识别方法在审
申请号: | 201710793500.9 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107564527A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 李彩霞 | 申请(专利权)人: | 平顶山学院 |
主分类号: | G10L15/26 | 分类号: | G10L15/26;G10L15/06;G10L15/065;G10L15/10;G10L15/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 467000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 嵌入式 系统 汉英 双语 语音 识别 方法 | ||
技术领域
本发明属于语音识别技术领域,尤其涉及一种嵌入式系统的汉英双语语音识别方法。
背景技术
近年来,国外语音识别专用芯片发展很快。国外一些语音技术和半导体公司都投入大量人力和物力开发语音识别专用芯片,并对自己国家语言的语音识别算法进行专利保护。这些专用(系统)芯片的语音识别性能也各不相同。通常的语音识别的过程如图1所示,输入的语音信号首先经过A/D进行采样,频谱整形加窗预加重处理,提高高频成分,进行实时特征参数提取,提取的参数为Mel频标倒谱系数(MFCC),同时进行语音识别模板训练和语音识别模板匹配,为了提高噪声环境下的芯片识别性能鲁棒性,还会进行语音增强的处理。专用芯片一般包括8位或16位MCU控制器或16位DSP微处理器及与其相连的自动增益控制(AGC)、音频前置放大器、低通滤波器、数/模(A/D)转换器、模/数(D/A)转换器、音频功率放大器、只读存储器(ROM)。这些语音识别专用(系统)芯片已经开始被应用于在智能语音玩具、移动通信终端上。
但是现有的中等词表的高性能语音识别专用芯片只能识别单语种语言,也就是说识别任务只能由汉语或者英语或者日语等单一语种的语言命令构成,并不支持两种语言(比如汉英双语混合)命令的识别。
然而,随着国际化趋势的不断深入,无论是经济、政治,还是文化、学术,人们在日常生活中所出现的双语现象已经越来越普遍,比如中英双名等。因而,仅仅构建基于中文或者英文等单语言的语音识别系统越来越不能顺应时代发展的要求。特别是作为世界上使用人数最多以及使用最广泛的中文和英文,构建一个能够进行中英文混合识别的系统,并将他在专用芯片系统等便携设备上实现,显得非常重要。
发明内容
本发明的目的是,为克服已有芯片系统只能识别单语言的不足,提出一种嵌入式系统的汉英双语语音识别方法。该方法是基于音素融合建模的汉英双语嵌入式语音识别、嵌入式语音增强方法。
技术方案是,一种嵌入式系统的汉英双语语音识别方法,包括A/D采样及采样后语音的预加重,提高高频信号的能量,加窗分帧处理以及语音特征参数的提取,并根据预先建立的声学模型,进行语音命令的匹配识别,其特征是所述声学模型的建立过程是确立汉英双语语音识别初始模型、汉英双语语音识别初始模型的非母语模型融合调整;所述语音命令的匹配识别具体是汉英双语语音命令的识别;
其中,所述确立汉英双语语音识别初始模型包括修订汉语语音识别模型、修订英语语音识别模型、合并修订后的汉语语音识别模型和英语语音识别模型以及训练合并后的汉语语音和英语语音识别模型;
所述汉英双语语音识别初始模型的非母语模型融合调整采用可选择的模型归并方法对母语模型和非母语模型进行融合,并对融合后的汉英双语语音识别初始模型进行最小音素错误区分性训练,得到汉英双语语音识别模型;
所述汉英双语语音命令的识别通过提取输入的语音信号的识别特征,计算汉英双语语音识别模型的高斯分数,根据汉英双语词条进行模板匹配,将匹配分数最大的词条作为识别结果。
所述方法还包括语音增强步骤。
所述合并修订后的汉语语音识别模型和英语语音识别模型具体是,采用基于状态时间对准的模型距离计算方法,计算汉语和英语两两音素之间的距离,然后将距离最小的一对音素进行合并。
所述训练合并后的汉语语音和英语语音识别模型,采用最大似然估计准则和期望最大化的估值迭代算法,得到汉英双语语音识别初始模型。
所述训练合并后的汉语语音和英语语音识别模型在PC机上完成。
所述采用可选择的模型归并方法对母语模型和非母语模型进行融合,包括下列步骤:
(11)通过纯母语的数据库训练得到一个母语模型M1;
(12)用少量的非母语数据库对模型M1使用最大似然线性回归方法进行自适应,得到模型M2;
(13)通过可选择的模型归并策略,将汉英双语语音识别初始模型中的对应某个母语音素λi的模型Sb,与模型M1中的音素λi的对应母语模型Sne和模型M2中λi对应的自适应模型Sa,以及根据非母语易混淆音素变化方法得到的发音字典中对应音素λi的易混淆音素γj的自适应模型γm进行线性的插值融合,得到融合后的音素λi的调整模型Sf;模型插值公式如下:
p(Sf)=λ1p(Sb)+λ2p(Sne)+λ3p(Sa)+λ4p(γm)
其中λ1、λ2、λ3和λ4分别表示对应模型的插值因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平顶山学院,未经平顶山学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710793500.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:处理方法、装置和机器可读介质
- 下一篇:一种手套套取机构的转送机构