[发明专利]语音识别系统无效
申请号: | 01132877.0 | 申请日: | 2001-09-12 |
公开(公告)号: | CN1343967A | 公开(公告)日: | 2002-04-10 |
发明(设计)人: | 小林载 | 申请(专利权)人: | 日本先锋公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/04 |
代理公司: | 北京市柳沈律师事务所 | 代理人: | 魏晓刚 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 | ||
技术领域
本发明涉及一种语音识别系统,且更具体地说,本发明涉及一种语音部分的检测精度得以改善的语音识别系统。
背景技术
在语音识别系统中,例如当在嘈杂环境中发出的语音直接经受语音识别时,由于噪声的影响语音识别比将恶化。因此,正确检测语音部分以进行语音识别是首要的。
利用矢量内积检测语音部分的传统公知的语音识别系统如图4所示构造。
该语音识别系统创建以词或子词(例如因素或音节)为单位的声学样板(语音HMM),采用一HMM(隐式马尔可夫原型(Hidden Markov Model)),产生观察值序列,该观察值是如果要被识别的语音发出时,对于输入的信号的倒频谱(Cepstrum)的时间序列,将观察值序列与语音HMM对照,并选取最相象的语音HMM,其然后作为识别结果输出。
更具体地说,采集并存储在一训练语音数据库内的大量语音数据Sm被分隔成对于预定时间段(约10到20毫秒)帧单元,通过使倒频谱依次在以帧为单位的每个数据上操作而得到倒频谱的时间序列,此外,该倒频谱的时间序列被学习为语音的特征量,并反映为声学样板(语音HMM)的参数,从而产生以词或子词为单位的语音HMM。
同样,用于检测语音部分的语音部分检测部分包括声学分析器1、3、本征矢量产生部分2、内积操作部分4、比较部分5、以及语音提取部分6。
在此,声学分析器1在训练语音数据库内对于每个帧号n进行语音数据Sm的声学分析,以产生M维特征矢量xn=[xn1xn2xn3…xnM]T。在此,T表示转置。
本征矢量产生部分2从M维特征矢量xn产生由下面的表达式(1)表示的相关矩阵R,且相关矩阵R通过求解以下表达式(2)而展开成本征值,以获得一本征矢量(称为训练矢量)V。
(R-λkI)Vk=0 (2)
其中,k=1、2、3、…、M;
I表示单位矩阵;以及
0表示零矢量。
从而,训练矢量V先前基于训练语音数据Sm计算出。如果当发出语音时,真正产生输入信号数据Sa,声学分析部分4分析输入信号Sa以产生特征矩阵A。内积操作部分5计算训练矢量V和特征矢量A的内积。此外,比较部分6将内积值VTA与固定的阈值θ相比较,且如果内积值VTA大于阈值θ时,语音部分被确定。
并且,在语音部分被如上所述确定以从输入信号Sa中提取用于语音识别的信号Svc过程中,语音提取部分6被打开(导通),并产生一系列要与语音HMM相对照的观察值。
顺便地说,通过利用矢量内积检测语音部分的传统方法,阈值θ被固定在零(θ=0)。且如果在真实环境下获得的输入信号Sa的特征矢量A与训练矢量V之间的内积值VTA大于固定的阈值θ,语音部分被确定。
因此,在不太嘈杂环境中产生语音的情况下,考虑到真实环境下获得的输入信号中的噪声(噪声矢量)的特征矢量、正确语音(语音矢量)的特征矢量、在真实环境下获得的输入信号的特征矢量A、以及线性谱域上的训练矢量V之间的关系,噪声矢量不大,且正确语音的语音矢量占主导地位,如图5A所示,从而在真实环境下获得的输入信号的特征矢量A指向与语音矢量和训练矢量V相同的方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本先锋公司,未经日本先锋公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01132877.0/2.html,转载请声明来源钻瓜专利网。