[发明专利]使用隐含语者自适应的语音识别系统无效
申请号: | 200710196696.X | 申请日: | 2002-03-22 |
公开(公告)号: | CN101221758A | 公开(公告)日: | 2008-07-16 |
发明(设计)人: | N·马拉亚;A·P·德雅柯;C·张;S·贾里尔;毕宁;H·加鲁达德里 | 申请(专利权)人: | 高通股份有限公司 |
主分类号: | G10L15/08 | 分类号: | G10L15/08;G10L15/10;G10L15/12;G10L15/14;G10L15/06;G10L15/28 |
代理公司: | 上海专利商标事务所有限公司 | 代理人: | 钱慰民 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 隐含 自适应 语音 识别 系统 | ||
本申请是申请号为02810586.9,国际申请日为2002年3月22日,发明名称为“使用内置式扬声器的语音识别系统”的发明申请的分案申请。
背景技术
技术领域
本发明涉及语音信号的处理。更具体的说,本发明涉及通过非监督式训练来获得性能改善的新颖语音识别方法和装置。
技术背景
语音识别是最重要的技术之一,它可赋予机器以模拟智能,用于识别用户的语音命令且便于作为人类与机器的接口。采用从声学语音信号中恢复语言信息的技术的系统被称为语音识别(VR)系统。图1显示了基本的VR系统,它包括:预加重滤波器102,声学特征提取(AFE)单元104,以及模式匹配引擎110。AFE单元104将一系列数字语音样本转变为一组测量数值(例如,被提取的频率分量),该测量数值可称之为声学特征矢量。模式匹配引擎110将一系列声学特征矢量与在VR声学模型112中所包含的模板相匹配。VR模式匹配引擎一般采用动态时间规整(DTW,Dynamic Timing Warping)或隐马尔可夫(Markov)模型(HMM)技术。DTW或HMM都是在本领域中所熟悉的,并且在Rabiner,L.R和Juang,B.H编著的《语音识别的基础》(Prentic Hall出版,1993年出版)中详细讨论了。当一系列声学特征与在声学模型112中所包含的一个模板相匹配时,可用该被识别的模板产生所希望的输出格式,例如,对应于输入语音的语言词汇的识别序列。
正如以上所指出的,声学模型112一般是HMM模型或者DTW模型。DTW声学模型可以认为是与需要识别的各种词汇有关的模板数据库。一般来说,DTW模板包括特征矢量的序列,该特征矢量序列是根据许多相关词汇的例子加以平均的。DTW模式匹配一般会涉及到将具有最小距离的存储模板置于表示输入语音的输入特征矢量序列中。在基于HMM的声学模型中使用的模板包含了对相关语音发音的详细统计描述。一般来说,HMM模板存储了一系列的平均矢量、方差矢量和一组转变的概率。这些参数可用于描述语音单元的统计并且是从许多语音单元的例子中估算出来的。HMM模式匹配一般涉及到根据与输入语音相关的输入特征矢量系列,为模型中的各个模板生成概率。具有最高概率的模板可选择为最类似输入的发音。
“训练”是指从一个和多个语者的特殊语音片段和音节中收集语音样本以便于产生声学模型112中的模板的过程。在声学模型中的各种模板与称为发音种类的特殊词汇或语音片段有关。在与同一发音种类有关的声学模型中可以有许多模板。“测试”是指将声学模型中的模板与从输入语音中提取的特征矢量序列相匹配的过程。给定系统的性能很大程度上取决于最终用户的输入语音和数据库中的内容之间的匹配程度,因此,也取决于在通过训练所产生的参考模板和用于VR测试的语音样本之间的匹配。
两种常用类型的训练是监督式训练和非监督式训练。在监督式训练中,与各组训练特征矢量有关的发音种类是先验已知的。提供输入语音的语者通常具有对应于预定发音种类的词汇和语音片段的原稿。随后,朗读原稿所产生的特征矢量可以合并到与正确发音种类有关的声学模型模板中。
在非监督式训练中,与一组训练特征矢量有关的发音种类不是先验已知的。在一组训练特征矢量可以合并到正确的声学模型模板中之前,必须正确地识别发音种类。在非监督式训练中,在对一组训练特征矢量识别发音种类时发生错误会导致在错误的声学模型模板中引起变化。此类错误一般会降低,而不是提高语言识别性能。为了能避免这类错误,基于非监督式训练的声学模型的任何变化一般都必须非常小心地来进行。只有具有相当高的可信程度认为已经正确识别了发音种类,则该组训练特征量才可以合并到声学模型中。这类必要的保守使得通过非监督式训练来构成SD声学模型是一个非常慢的处理过程。直到SD声学模型采用该方法来构成,VR性能或许对大多数用户是难以接受的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高通股份有限公司,未经高通股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710196696.X/2.html,转载请声明来源钻瓜专利网。