[发明专利]一种基于巴氏距离的语音特征映射方法及系统有效
申请号: | 201810572146.1 | 申请日: | 2018-06-06 |
公开(公告)号: | CN108766430B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 王志锋;左明章;宁国勤;叶俊民;闵秋莎;田元;夏丹;陈迪;罗恒;姚璜 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/06;G10L25/24;G10L15/02 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 距离 语音 特征 映射 方法 系统 | ||
1.一种基于巴氏距离的语音特征映射方法,其特征在于,所述基于巴氏距离的语音特征映射方法包括:
首先分别提取复杂环境下语音信号和干净语音信号的特征;接着利用复杂特征和特征映射公式初始化映射特征,并分别建立映射特征与干净特征的GMM模型;
然后用EM算法迭代估计两个GMM模型之间的最小巴氏距离,并得到最终的映射特征;
最后将映射特征与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别;
所述基于巴氏距离的语音特征映射方法具体包括:
步骤1:提取干净环境下语音特征;
步骤2:提取复杂环境下语音的特征;
步骤3:将复杂特征通过特征映射公式得到初始化映射特征,分别建立初始化映射特征的GMM模型和干净环境语音特征的GMM模型;
步骤4:引入巴氏距离,通过最小化两个GMM之间的巴氏距离得到映射特征;
步骤5:将映射特征与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。
2.如权利要求1所述的基于巴氏距离的语音特征映射方法,其特征在于,
步骤1,具体包括以下步骤:
步骤1.1:对干净环境下得到的语音信号进行预处理,预处理包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征MFCC。
3.如权利要求1所述的基于巴氏距离的语音特征映射方法,其特征在于,
步骤2,具体包括以下步骤:
步骤2.1:对复杂环境下得到的语音信号进行预处理,预处理包括预加重、分帧、加窗;
步骤2.2:将步骤2.1预处理后的信号提取Mel倒谱系数特征,记为X=[x1,x2,...,xt,...,xn],xt∈X。
4.如权利要求1所述的基于巴氏距离的语音特征映射方法,其特征在于,
步骤3,具体包括以下步骤:
步骤3.1:将复杂特征通过特征映射公式得到初始化映射特征特征,映射公式为:
其中xt表示输入特征的第t帧,yt表示输出特征的第t帧,A表示增益矩阵,b表示偏移矩阵,W即表示为映射函数的参数;矩阵A由2L+1个矩阵构成的矩阵序列,L为非负数,每个矩阵的维数与输入特征每帧的维数相同;输入特征由2L+1帧特征组成一组矢量;W由2L+1个矩阵和一列矢量构成,为2L+1帧和1组成的一列矢量;
步骤3.2:令L=1,W中的A0为单位矩阵,A-1、A1为0矩阵,依次构建初始化映射特征yt,初始化映射特征为复杂特征;
步骤3.3:对语音信号进行处理并建立初始化MFCC特征和干净特征的GMM模型。
5.如权利要求1所述的基于巴氏距离的语音特征映射方法,其特征在于,步骤4,具体包括以下步骤:
步骤4.1:根据巴氏距离公式表示两个GMM之间的巴氏距离,公式表示为:
其中,和分别表示干净特征GMM和映射特征GMM的第i个高斯分量;
步骤4.2:根据高斯公式对步骤4.1中的公式进行转换,构建损失函数Fc:
其中,为弗罗贝尼乌斯矩阵的二阶标准范数,β和λ是来控制弗罗贝尼乌斯范数和两个GMM模型分布影响程度的可调参数,y为输入特征即每次新得到的映射特征,T为输入特征的帧数,yt即为输入特征的第t帧,另一个参数γt(i)的表达式为:
M为GMM中的高斯个数,ωi为第i个高斯的权重;
步骤4.3:引入EM算法对步骤4.2中的巴氏距离进行迭代求最小值,求得当此最小值存在时的参数W;
步骤4.4:将参数W代入步骤3.1中的特征映射公式求得映射特征y。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810572146.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互方法和装置
- 下一篇:一种基于语音识别的自动唤醒方法及电子设备