[发明专利]有限状态向量量化的语音辨认方法无效
申请号: | 200410049932.1 | 申请日: | 2004-06-21 |
公开(公告)号: | CN1713272A | 公开(公告)日: | 2005-12-28 |
发明(设计)人: | 刘利诚;刘怡萱;刘宛灵;杨志明;吴生三 | 申请(专利权)人: | 翔连科技股份有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/08 |
代理公司: | 北京科龙寰宇知识产权代理有限责任公司 | 代理人: | 孙皓晨;贺华廉 |
地址: | 中国*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种有限状态向量量化的语音辨认方法,每个个别的声音以一由左到右的有限状态机来表示,并使用新的训练方法(Training Method),两段声音之间距离的度量(Distance Measure),采用振幅频谱dB值差的平方总和(square of error of magnitude spectrum),dB值是人耳度量声音音量的线性单位,因此这里所采用的距离的度量乃是仿真人耳,符合已发现并仍在使用中的物理定律,根据这个两段声音之间距离的度量,利用数学定理,推导出一语音特征向量(feature vector),及一公式利用此一特征向量计算两段声音之间差异的大小。语音模式的训练,乃是利用重复比对更新的方式,此语音模式的训练方法在数学上可以证明它是收敛的,也就是最终会得到其中最佳的语音模式。 | ||
搜索关键词: | 有限 状态 向量 量化 语音 辨认 方法 | ||
【主权项】:
1、一种有限状态向量量化的语音辨认方法,其中包含:距离量测的计算方式、语音辨认的训练方法;该距离量测的计算方式,是将(2δ+1)帧的频谱样型当作一个区域性的特征;对两个语音段落,每个的长度等于(2δ+1)帧,两者之间的距离量测采用它们的频谱dB值差的平方的总和,取10阶的倒频谱系数之后,两个频谱样型间的距离被表示为:Σ m = 0 10 { ( 2 δ + 1 ) · [ b m 1 ( t ) - b m 2 ( t ) ] 2 + Σ τ = 1 δ 2 τ 2 · [ a m 1 ( t ) - a m 2 ( t ) ] 2 } ]]> 在发声之前,计算环境音的特征向量统计值,帧的特征向量由ami(t)与bmi(t)构成,其中t代表语音帧的时序索引,通过取样环境音期间20个帧的特征,计算此20个帧讯号的平均能量,得到平均能量NR0之后进行声音的开始的确定,当接收的连续6个帧能量大于NR0+TH1时,确定声音开始;然后利用计算特征向量公式,将20个帧讯号转换成16个特征向量N i → , i = 1,2 , . . . , 16 , ]]> 根据该16个环境音的特征向量,得到环境音的平均特征向量,即N → = 1 16 Σ i = 1 16 N i → ; ]]> 再计算环境音间的平均距离Davg,Davg = 1 16 Σ i = 1 16 D ( N → i , N → ) ]]> 此距离是根据(6)式加以计算估计的环境音间的距离其标准差为σ = [ 1 16 Σ i = 1 16 D 2 ( N → i , N → ) ] 1 2 ]]> 在发音期间,依序每个帧计算特征向量,如果连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个连续帧的第一个帧当作可能的起始帧fs;决定声音的结束帧,由取样的声音的最后帧往前找,当连续三个帧其与环境音平均特征向量的距离大于Davg+5σ,取这三个帧的最后一个帧当作可能的结束帧fe;从可能的起始帧fs前16的个帧开始算起到可能的结束帧fe后的第16个帧止的范围,可以分成三个子区间,分别为起始帧fs前的16个帧为第一子区间,亦为环境音状态#1:而由起始帧fs至结束帧fe的区间则为第二子区间,以及结束帧fe后的16个帧为第三子区间,其为环境音状态#2;此语音模式利用有限状态向量量化予以训练,对环境音状态#1及环境音状态#2以平均特征向量
当作起始码本;在第二子区间内,每连续4个帧的平均特征向量被当作相对应状态的起始码本,如此则第二子区间分成状态1,…,状态L;利用维特比(Viterbi)算法,将声音讯号的段落依照语音模式找出沿着最佳路径有最小累积距离的语音模式,沿最佳路径返回找出分属于各状态(环境音状态#1(11),状态1(12),...,状态L(13),环境音状态#2(14)的区域性特征向量,再修正各状态的码本,接着判断是否为收敛如果非收敛则回到维特比算法的步骤找出最佳的路径,如果为收敛则训练结束;经过如此反复的训练,此语音模式将收敛到一个最佳的语音模式;在辨识期间,找出声音可能的起始帧fs及可能的结束帧fe,而起始帧fs前的16个帧至结束帧fe后的16个帧构成声音讯号段落;每个语音模式中的环境音状态#1(11)及环境音状态#2(14)的码本以
取代,利用维特比(Viterbi)算法,将声音讯号的段落依照各个语音模式分别找出最佳路径,并计算出各个语音模式最佳路径的累积距离,分别为Di,i=1,.....,R(R为欲辨识之词组的数目),并在Di中找出最小值,则此词组即为辨识的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翔连科技股份有限公司,未经翔连科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200410049932.1/,转载请声明来源钻瓜专利网。
- 上一篇:用于蓄水箱冲洗阀的提升杠杆
- 下一篇:具有可伸缩护套的外科手术刀