[发明专利]英语口语机考系统中网络语音识别方法无效
申请号: | 201110321538.9 | 申请日: | 2011-10-21 |
公开(公告)号: | CN102436809A | 公开(公告)日: | 2012-05-02 |
发明(设计)人: | 刘健刚;李霄翔;储琢佳;张潇丹;董静;赵力;张萍;李鲁 | 申请(专利权)人: | 东南大学 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/08;G10L21/02 |
代理公司: | 南京天翼专利代理有限责任公司 32112 | 代理人: | 汤志武 |
地址: | 211189 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及了一种在英语口语机考系统中实现网络语音识别的方案。本方案对传统的谱相减(SS)降噪声技术和倒谱均值规整(CMN)降噪声技术进行改进,同时结合等同于连续状态隐马尔可夫模型(HMM)的概率尺度DP识别方法,提出了一种在英语网考系统中非特定人的网络语音识别方案,并利用其实现了实际环境下网络语音识别装置。本方案采用上述方法,将具有输入幅值谱自适应的SS方法和基于渐进自适应方式MAP算法的CMN方法相结合,大大降低了环境噪声对识别系统的影响。同时,本方案在传统的DP方法基础上,利用概率尺度的DP算法进行识别,使得DSP语音识别装置能够适用于户外不同场合的、非特定人的语音识别,从而使得识别系统范围和识别精度得到了提高。 | ||
搜索关键词: | 英语口语 系统 网络 语音 识别 方法 | ||
【主权项】:
1.一种英语口语机考系统中网络语音识别方法,其特征在于,包括一些步骤:A.输入英语口语机考系统中的语音信号a′(t),t为时间变量;B.预处理与特征提取
预处理阶段1)语音信号进行采样:对英语口语机考系统中语音信号进行采样频率fs为8kHz的采样,采样后的信号为s(t),s ( t ) = a ′ ( t ) · δ T ( t ) = a ′ ( t ) · Σ n ′ = - ∞ n ′ = ∞ δ ( t - n ′ / f s ) = Σ n = - ∞ n = ∞ a ′ ( n ′ / f s ) · δ ( t - n ′ / f s ) , ]]> 再进行1-0.98Z-1的预加重处理,1-0.98Z-1的时域形式为1-0.98δ(t-1),预加重后的语音信号b(t)=s(t)*[1-0.98δ(t-1)]=s(t)-0.98s(t-1),其中,δT(t)为冲激函数,n′为整数;2)用窗长25ms,窗移10ms的汉明窗对语音信号进行加窗分帧处理:分帧采用交叠分段的方法,前一帧和后一帧的交叠部分称为帧移长度M,用可移动的有限长度窗口进行加权的方法来实现的,即用窗函数ω′(t)来乘预加重后的语音信号b(t),从而形成加窗语音信号x(t),x(t)=b(t)·ω′(t),本发明采用汉明窗ω′(t),其窗函数为:ω ′ ( t ) = 0.54 - 0.46 cos [ 2 πt / ( N - 1 ) ] , 0 ≤ t ≤ N - 1 0 , t = else ]]> N为窗长,窗长即帧长,窗移即N-M,帧移长度M为15ms,加窗分帧处理后得到的第i帧语音信号为xi(t),则xi(t)满足下式:xi(t)=ω′(t+l)b(t),0≤t≤N-1其中,l=0,1(N-M),2(N-M),…,(总帧数-1)(N-M),M为帧移长度,N为帧长即窗长,3)语音信号的端点检测:利用语音信号的短时能量进行端点检测设第i帧语音信号xi(t)的短时能量用Ei表示,则计算公式如下:E i = Σ t = 0 N - 1 x i 2 ( t ) ]]> 设置两个门限,一个较低的门限Tlow,Tlow=min(Ei,i=1,2,...,总帧数)·0.1,数值比较小,对信号的变化比较敏感;一个较高的门限Thigh,Thigh=max(Ei,i=1,2...,总帧数)·0.1,当Thigh第一次被超过时,断定为区域语音信号的开始,当短时能量降到Tlow以下就代表区域语音信号的结束,4)利用语音区间检测时使用的短时能量对输入波形数据进行规整,即进行归一化处理,使得输入语音基本上按等幅进行频率分析,方法为:第i帧语音信号xi(t)的短时能量Ei,归一化后的第i帧语音信号xi(t)的短时能量为
5)降噪处理:I:采用具有输入幅值谱自适应的谱相减SS方法来降低由环境噪声引起的加性噪声:第i帧语音信号xi(t)含有噪声的傅里叶变换为xi(ω),
ω为频率,j为虚数单位,则第i帧语音信号xi(t)的幅值谱为|xi(ω)|,其功率为:|xi(ω)|2,除噪后的第i帧语音信号为xinew(t),其幅值谱为|xinew(ω)|,
则除噪后的第i帧语音信号的功率为:|xinew(ω)|2,推定的噪声功率为|ni(ω)|2,在整个区域语音以外的当前输入第i帧信号为yi(t),其帧功率为|yi(ω)|2,
对于第i帧语音信号幅值谱的第o元素,噪声下的语音功率为|xi(ω)|2o,推定的噪声功率是|ni(ω)|2o,除噪后的语音功率是|xinew(ω)|2o,为了补偿第4)步中由于规整而丢失的能量信息,推定噪声功率估计修正为:|ni(ω)|2o=(1-β)|ni-1(ω)|2o+βEi′|yi(ω)|2o,0<β<1,本发明中取β=0.55,SS权值系数修正为![]()
α ^ ( i ) = α ( i ) E i ]]>α ( i ) = φ 1 , | x i ( ω ) | 2 o < θ 1 φ 2 - φ 1 θ 2 - θ 1 | x i ( ω ) | 2 o + φ 1 , θ 1 < | x i ( ω ) | 2 o < θ 2 φ 2 , | x i ( ω ) | 2 o > θ 2 , ]]> 其中0<θ1,θ2<1,φ1和φ2是常数其中,φ1=0.1,φ2=0.3,θ1=0.2,θ2=0.8,Ei为第i帧语音信号的短时能量,Ei′为第i帧语音信号归一化后的短时能量,|yi(ω)|2o为在整个区域用语音以外的当前输入信号帧功率,除噪后语音的功率为:| x inew ( ω ) | 2 o = | x i ( ω ) | 2 o - α ^ ( i ) | n i ( ω ) | 2 o if | x i ( ω ) | 2 o > α ^ ( i ) | n i ( ω ) | 2 o 0 if else ]]> II:利用基于最大后验概率(MAP)的倒谱均值规整CMN方法来降低由输入和传输电路系统引起的乘性噪声:设对于第i帧倒谱的第o元素,噪声下的语音倒谱是Co(i),是采用第I种降噪后的xinew(t)对数幅值谱的第o元素的傅里叶逆变换,即
|xinew(ω)|o表示第i帧语音信号幅值谱的第o元素,除噪后语音的倒谱是![]()
C ^ o ( i ) = C o ( i ) - γ C o 0 + Σ i = 1 k C o ( i ) γ + k ]]> 式中γ是自适应训练系数,γ>1,Co0是表示先验分布的初始估计值,0<Co0<1,k为总帧数,γ=2,Co0=0.95,6)经过上述预处理过程之后的语音信号为xnew′(t),t为时间变量,其第i帧语音信号为xinew′(t),
特征参数提取阶段1)对预处理后的每一帧语音信号分别求取14维LPC系数:设第i帧语音信号为xinew′(t)的功率谱为|Xinew′(ejω)|2,Xinew′(ejω)即信号谱,表示第i帧语音信号xinew′(t)的傅里叶变换,
由|Xinew′(ejω)|2=|H(ejω)|2求出14维LPC系数ap,p=1,2,...,14,则第i帧语音信号的声道模型系统函数H(z)为:H ( z ) = 1 1 + Σ p = 1 14 a p z - p - - - ( 3 ) ]]> 其冲激响应为h(n″),
表示h(n″)的复倒谱,则有:H ^ ( z ) = ln H ( z ) = Σ n ′ ′ = 1 ∞ h ^ ( n ′ ′ ) z - n ′ ′ - - - ( 4 ) , ]]> 将式(3)代入(4)式并将其两边对z-1求导数,有:( 1 + Σ p = 1 14 a p z - p ) Σ n ′ ′ = 1 ∞ n ′ ′ h ^ ( n ′ ′ ) z - n ′ ′ + 1 = - Σ p = 1 14 pa p z - p + 1 ]]> n″为正整数,令上式左右两边的常数项和z-1各次幂的系数分别相等,从而可由LPC系数ap求出LPC复倒谱![]()
h ^ ( n ′ ′ ) = 0 , ( n ′ ′ = 0 ) h ^ ( n ′ ′ ) = - a n ′ ′ - Σ p = 1 n ′ ′ - 1 ( 1 - p / n ′ ′ ) a p h ^ ( n ′ ′ - p ) , ( 1 ≤ n ′ ′ ≤ 14 ) h ^ ( n ′ ′ ) = - Σ p = 1 14 ( 1 - p / n ′ ′ ) a p h ^ ( n ′ ′ - p ) , ( n ′ ′ > 14 ) ]]> 从而LPC倒谱系数LPCC:
c(n″)为LPC倒谱系数LPCC,2)利用求出的LPC倒谱系数LPCC对每一帧的语音信号分别求取10维LPC美尔倒谱系数LPCMCC和10维线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数:I:根据人的听觉特性,把常用的识别参数LPC倒谱系数LPCC进一步按符合人的听觉特性的美尔MEL尺度进行非线性变换,求出如下所示的LPC美尔倒谱系数LPCMCC:MC g ( d ) = c ( n ′ ′ ) + ϵ · MC 0 ( d + 1 ) , g = 0 ( 1 - ϵ 2 ) · MC 0 ( d + 1 ) + ϵ · MC 1 ( d + 1 ) , g = 1 MC g - 1 ( d + 1 ) + ϵ · ( MC g ( d + 1 ) - MC g - 1 ( d ) ) , g > 1 ]]> 这里,MCg(d)为LPC美尔倒谱系数LPCMCC,d为迭代次数,g为美尔倒谱阶数,d=g=9,c(n″)为LPC倒谱系数,当d>9时,MCg(d)=0,并且当抽样频率为8kHz时,ε取0.31,迭代是从高到低,即d从大到0取值,最后求得的美尔倒谱系数放在MC0(0),MC1(0),...,MC9(0)里面,组成一个10维的特征矢量的时间序列,II:求取一阶的倒谱线性回归系数ΔLPCMCC:R r ( t , T ′ ′ , ΔT , N ′ ) = Σ X ′ = 1 N ′ P r ( X ′ , N ′ ) C [ t + [ X ′ - 1 N ′ - 1 - 1 2 ] ( T ′ ′ - ΔT ) ] Σ X ′ = 1 N ′ P r 2 ( X ′ , N ′ ) ]]> r为阶数取1,Pr(X′,N′)表示求取r阶线性回归系数时的加权函数,当r=1时,Pr(X′,N′)=X′,C(t)、T″、ΔT、N′分别表示在时刻t的LPCMCC、计算回归系数的时间宽度、语音特征参数分析时的窗移和计算回归系数时所用的帧数,ΔT为15ms,由LPCMCC,求出10维的一阶的倒谱线性回归系数ΔLPCMCC,3)将求出10维的LPCMCC和10维的线性回归一阶LPCMCC系数ΔLPCMCC作为语音特征参数,组成一个20维的特征参数矢量Vector,C.语音识别I.语音识别方法采用基于概率尺度DP识别方法1)用基于概率尺度的动态规划DP算法进行时间规整以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词中提取的特征矢量时间序列作为模板存入模板库;在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出,所述的待识别语音采用基于概率尺度的动态规划DP算法进行时间规整:待识别语音特征参数共有k帧矢量,设相应的参考模板共有J帧矢量,且k≠J,动态时间规整就是寻找一个时间规整函数
它将测试矢量的时间轴u非线性的映射到模板的时间轴v上,并使该函数满足:
式中,
是第u帧待识别语音的特征参数矢量A(u)和第v帧模板矢量B(v)之间的距离测度,D是处于最优时间规整情况下的两矢量的距离,得到的两矢量匹配是累计距离最小的规整函数,接着,用基于概率尺度动态规划DP算法来寻找最优的规整函数
基于概率尺度的DP方法的递推公式为:G ( u , v ) = max G ( u - 2 , v - 1 ) +logP ( X u - 1 | v ) + log P ( X u | v ) + log P PS 1 ( v ) G ( u - 1 , v - 1 ) + log P ( X u | v ) + log P PS 2 ( v ) G ( u - 1 , v - 2 ) + log P ( X u | v ) +log P PS 3 ( v ) ]]> G(u,v)是当前匹配帧(u,v)的概率,PS1,PS2,PS3为带到改点的路径,DP算法是从过程的最后阶段开始逆序依次寻找依所有的匹配点和带到该匹配点的最优路径,组成的折线段对应的函数即为最优规整函数
a)条件概率P(Xu|v)的计算假定在状态v观测到的Xu是符合(μv,∑v)的高斯分布,μv为均值,∑v为方差,Xu为第u帧语音特征参数矢量,则条件概率P ( X u | v ) = ( 2 π ) - 10 | Σ v | - 1 / 2 × exp { - 1 / 2 ( X u - μ v ) t Σ v - 1 ( X u - μ v ) } , ]]> ∑v和μv为与Xu同维数的向量,维数是20,(Xu-μv)t表示向量(Xu-μv)的转置,为了求出各个时刻的均值和方差,首先选择一个学习样本序列即训练数据序列作为核心样本,然后输入一个同类的学习数据和核心样本进行DP匹配即利用上述概率计算公式依次找出匹配点和带到该匹配点的最优路径寻找最佳路径函数
这时各个时刻的均值和方差通过最佳路径函数
找出和核心样本对应时刻的输入帧矢量进行计算和更新,如此重复直到同类的学习数据用完为止,渐进地求出各个时刻的均值和方差。b)状态转移概率的计算上述公式里logPPS1(v),logPPS2(v),logPPS3(v)分别表示Q((u-2,v-1)→(u,v))、Q((u-1,v-1)→(u,v))、Q((u-1,v-2)→(u,v))三个状态转移的转移概率,计算状态转移概率的方法:各个学习数据和核心样本进行DP匹配时,记下各时刻选择的路径情况,学习完毕后,假定在时刻v三个路径被选择的总数分别是PS1(v)、PS2(v)、PS3(v),则此时的三个状态转移概率可由下式计算得到:PPS1(v)=PS1(v)/{PS1(v)+PS2(v)+PS3(v)}PPS2(v)=PS2(v)/{PS1(v)+PS2(v)+PS3(v)}PPS3(v)=PS3(v)/{PS1(v)+PS2(v)+PS3(v)}求出最优规整函数
后,将待识别的语音特征参数矢量的时间序列的时间轴作为坐标的横轴,非线性的映射到作为坐标纵轴的模板矢量的时间轴上:
最后,利用模式匹配的方法进行识别:最优路径函数
的起点与终点之间的距离即为待识别语音与模板语音之间的距离,与待识别语音距离最小的模板对应的单词字音即判为识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110321538.9/,转载请声明来源钻瓜专利网。