[发明专利]一种基于自适应并行模型组合的鲁棒语音身份识别方法在审
申请号: | 201810035573.6 | 申请日: | 2018-01-15 |
公开(公告)号: | CN108257606A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 葛洪伟;李聪;葛阳 | 申请(专利权)人: | 江南大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/20;G10L17/00 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 梅洪玉 |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音身份识别 测试环境 自适应 并行模型 身份识别 噪声环境 鲁棒性 鲁棒 语音 身份安全认证 安全领域 车载系统 模型参数 信息通过 训练环境 噪声信息 智能家居 识别率 匹配 | ||
本发明公开了一种基于自适应并行模型组合的鲁棒语音身份识别方法,主要解决噪声环境下由于真实测试环境与训练环境之间的差异而导致的说话人身份识别性能急剧下降的问题,该方法通过从实际测试环境的语音中估计噪声信息,并将该信息通过相应变换后对纯净训练GMM模型参数进行补偿,使调整后的GMM参数能够尽量匹配当前测试环境,进而提高整个语音说话人身份识别的鲁棒性。本发明方法能够提高噪声环境下语音身份识别系统的识别率,提高系统的鲁棒性和自适应的能力,满足日常生活中如智能家居、车载系统和各种需要进行身份安全认证的安全领域。
技术领域
本发明属于模式识别和语音处理技术领域,涉及现实噪声环境下鲁棒语音身份识别方法,具体是指一种基于自适应并行模型组合的鲁棒语音身份识别方法,可用于满足日常生活中如智能家居、车载系统等,以及在需要进行安全认证的各种安全领域。
背景技术
语音身份识别也称为说话人识别,属于生物识别技术的一种,是利用说话人的一段语音提取出该说话人的个性特征,通过对这些特征的分析和识别,达到对说话人身份辨认和确认的技术。说话人识别有着广泛的应用前景,可用在需要进行安全认证的各种安全领域,也可在智能家居、车载系统等小容量嵌入式系统中运用。目前说话人识别技术已经有了很大突破,在安静环境下表现出了较高的识别率,但是,现有的语音身份识别系统仍存在一些困难,最突出的便是噪声环境下系统的鲁棒性问题。由于现实环境下不可避免的背景噪音的干扰,语音识别相关系统的应用环境往往不能很好的和纯净训练模型的环境相匹配,从而导致了在干净语音上训练出来的系统在真实的测试环境中性能往往会有明显的下降。
目前针对减小环境失配问题提出的方法大体分为两类:一类是特征域方法,主要是寻求稳健的声学特性提取鲁棒性语音特征,减小噪声对语音的干扰;另一类称为模型域方法,通过调整声学模型参数,将噪声信息融合到纯净训练模型的语音状态中,使之能够匹配当前测试中的噪声环境,克服环境失配所带来的影响,模型域中较为经典的方法是并行模型组合 (Parallel Model Combination,PMC)方法。
传统PMC方法需要噪声信息已知,即通过已知的噪声信息对原始语音进行相应变换和调整后提高模型的抗噪能力,这样的做法虽然能够更充分的利用噪声信息改善原有模型,但缺乏一定的自适应性。
为了提高模型的自适应性,本发明结合并行模型组合PMC和高斯混合模型(Gaussian Mixture Model,GMM)的原理,提出了一种基于自适应并行模型组合APMC(Adaptive Parallel Model Combination)的鲁棒语音身份识别方法。
并行模型组合PMC方法是一种有效的噪声补偿技术,最初是用于语音识别系统中声学模型的参数调整,根据已有的纯净语音声学模型和噪声模型,估计含噪语音的声学模型。该方法的原理分别以纯净语音及单纯的噪声来训练出纯净的语音模型及噪声模型,接着在对数谱域对两个模型进行合并,得到含噪语音模型,使其能够尽可能地匹配噪声环境。为了更有针对性地解决噪声鲁棒性的问题,PMC方法假设语音信号和噪音是相互独立的声源,并在时间域中是可以相加的关系,且噪声相对平稳。在对数谱域上,对于加噪语音y(t)表现为干净语音 x(t)和加性噪声n(t)在对数谱域特征矢量的非线性函数:
yln(t)=f(xln(t),nln(t))=ln(exp(xln(t))+exp(nln(t)));
高斯混合模型是利用多维高斯概率密度函数对语音信号特征矢量进行建模,通过高斯密度函数的线性组合来表示每个说话人的训练语音在声学空间的分布,由统计理论可知,用若干个高斯概率密度的线性组合可以逼近任意分布,因此GMM可以用来模拟各种形式的语音特征分布。一个高斯混合密度是由混合度为M个高斯分量密度的加权和构成,概率输出公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810035573.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多通道录音方法、装置及电子设备
- 下一篇:音频内容修正的方法及其智能装置