[发明专利]基于连续混合高斯HMM模型的地名语音信号识别方法有效
申请号: | 201611177818.6 | 申请日: | 2016-12-19 |
公开(公告)号: | CN106782510B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 蔡熙;聂腾云;赖雪军;谢巍;车松勋 | 申请(专利权)人: | 苏州金峰物联网技术有限公司;上海韵达货运有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/065;G10L15/14 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 215123 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 连续 混合 hmm 模型 地名 语音 信号 识别 方法 | ||
1.基于连续混合高斯HMM模型的地名语音信号识别方法,其特征在于:包括连续混合高斯HMM模型的训练过程及地名语音识别过程,其中,所述连续混合高斯HMM模型的训练过程如下:
S1,定义一个包含如下参数的连续混合高斯HMM模型,λ=(N,M,A,π,B),其中:
N,模型状态数,为4;
M,每个状态所对应的高斯函数的个数,每个状态包含3个39维的高斯函数,一个模型中N个状态中每个状态高斯函数个数相同;
A,状态转移概率矩阵,A={aij},aij=P[qt+1=j/qt=i],1≤i,j≤N,其中,qt=i表示在t时刻处在状态i,q(t+1)=j表示t+1时刻在状态j,整体表示从状态i转换到状态j的概率;
π,各状态的起始概率分布,π=πt,πt=P[qi=i],1≤i≤N,其中,π=πt表示从状态i开始的概率,i表示各个状态对应的起始概率;
B,输出概率密度函数,B={bj(o)},其中,o为观察向量,M为每个状态包含的高斯函数的个数;cjl为第j个状态第l个混合高斯函数的权重,L为正态高斯概率密度函数,μjl为第j个状态第l个混合高斯元的均值矢量,Ujl为第j个状态第l个混合高斯元的协方差矩阵;
S2,模型初始化,将初始状态π=πt向量设置为(1 0 0 0),状态转移矩阵A在其自身转移和转移到下一个状态的概率均为0.5,每个高斯函数均为39阶的均值为0、方差为1的函数,权重均为1/3;
S3,将一类地名语音信号的特征矩阵代入模型中,利用Baum-Welch迭代算法进行一次模型参数训练;所述一类地名语音信号是指将一个地名的所有样本语音信号的特征矩阵数据放到一起,根据均值聚类法k-means进行聚类,分为4类,对应4个状态;
S4,根据计算出的模型参数,使用viterbi算法求出一类地名语音信号出现的概率;
S5,将该概率和训练之前的输出概率相比较,判断两者的相对误差是否满足输出条件;
S6,若符合输出条件,输出该类地名语音信号对应的连续混合高斯HMM模型;若相对误差小于0.000001,说明模型训练已收敛,满足输出条件;
S7,若不符合输出条件,判断训练次数是否达到最高训练阈值;
S8,若训练次数未到达最高训练阈值,则重复S3-S7步骤,若训练次数达到最高训练阈值,则终止训练,输出连续混合高斯HMM模型;
S9,将若干类地名语音信号的特征矩阵代入模型中,重复S3-S8步骤,得到若干个不同地名对应的连续混合高斯HMM模型,所有的连续混合高斯HMM模型数据形成地名语音识别模型库。
2.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法,其特征在于:所述S3步骤中,利用Baum-Welch算法计算模型参数的过程如下:
S31,用Lagrange数乘法构造一个目标优化函数Q,其中包含了所有连续混合高斯HMM模型的参数作为变量;
S32,令Q对各变量的偏导数为0,推导出Q达到极点时新的HMM参数对应于旧的HMM参数之间的关系,从而得到HMM各参数的估计;
S33,用新旧HMM模型参数之间的函数关系反复迭代运算,直到HMM模型参数收敛为止。
3.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法,其特征在于:所述地名语音识别过程如下:
S10,将某一39维的地名语音信号特征矩阵代入已建立好的地名语音识别模型库中,利用viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率,并把该地名语音信号特征矩阵识别为输出概率最大的那一类。
4.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法,其特征在于:所述地名语音识别过程如下:
S110,将一n×39的未知地名语音信号的特征矩阵输入已建立好的地名语音识别模型库中的一类地名语音信号对应的连续混合高斯HMM模型后,记其为观察序列O(o1,o2,…,on),记Pin表示在连续第n帧信号输入之后出现在状态i的概率;pin表示在状态i观察到第n帧信号的概率;aij表示从状态i转移到状态j的概率;
当第1帧信号输入,pi1=fi(o1);(1≤i≤4),此处fi(o1)表示第一帧向量在状态i位置出现的概率;
因为初始状态为1,所以P11=p11;P21=0;P31=0;P41=0;
当第2帧信号输入,pi2=fi(o2);(1≤i≤4)
则Pi2=max{Pj1*aji*pi2}(1≤j≤4),其中aji表示从状态j转移到状态i的概率;
以此类推,
当第n帧信号输入时,pin=fi(on);(1≤i≤4)
Pin=max{Pj(n-1)*aji*pin}(1≤j≤4),其中n是一段语音信号的帧数;
当未知地名语音信号的所有帧信号输入结束后,得到P1n,P2n,P3n,P4n四个概率,其中最大的一个概率即是未知地名语音信号在此类地名语音信号对应的连续混合高斯HMM模型中出现的概率;
S120,将未知地名语音信号的特征矩阵代入所有其他类地名语音信号对应的连续混合高斯HMM模型中,得出此未知地名语音信号在每一个连续混合高斯HMM模型中出现的概率,并将则此未知地名语音信号归属于各类地名语音信号对应的连续混合高斯HMM模型中出现的概率最大的那一类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州金峰物联网技术有限公司;上海韵达货运有限公司,未经苏州金峰物联网技术有限公司;上海韵达货运有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611177818.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语料标注方法和装置及终端
- 下一篇:修正线性深度自编码网络语音识别方法