[发明专利]语音识别系统的自适应方法有效
申请号: | 201010175678.5 | 申请日: | 2010-05-05 |
公开(公告)号: | CN102237082A | 公开(公告)日: | 2011-11-09 |
发明(设计)人: | 史媛媛 | 申请(专利权)人: | 三星电子株式会社;北京三星通信技术研究有限公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00;G10L15/02;G10L15/06 |
代理公司: | 北京铭硕知识产权代理有限公司 11286 | 代理人: | 郭鸿禧;刘奕晴 |
地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 自适应 方法 | ||
技术领域
本发明涉及语音识别技术,更具体地讲,涉及语音识别的自适应方法。
背景技术
近年来,语音识别技术已经取得了显著进步,在实验室环境下,识别精度已经高达95%。近来,语音识别技术开始从实验室走向市场,并逐渐进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
然而,语音识别系统的性能受许多因素的影响,这些因素包括不同的说话人、说话方式、环境噪音、传输信道等。当需要被识别的语音与训练语音识别系统时的条件不同时,该语音不能被很好地识别。
解决该问题的一个方案是利用尽可能多的数据进行训练,使得语音识别系统尽可能多地记住现实世界中存在的各种影响因素,从而提高识别精度。然而,要收集与各种影响因素有关的数据资源投入大,成本高。因此,寻找实现成本低,高效的解决方案一直是语音识别专业领域的研发课题之一。
解决该问题的另一个方案是自适应技术。一个典型的自适应方案是:用户在使用语音识别系统进行识别语音之前读取一些测试语句,从而语音识别系统根据这些测试语句的语音信号更新语音识别系统的参数来更好的适应该用户的语音。这样,同一用户在使用语音识别系统进行识别语音时,能够获得较高的识别精度。显然,上述两个方案中自适应技术所需的成本更小,并且更适于处理各种应用场景中的多种变化因素。
图1和图2示出现有技术的两种自适应识别系统。
在图1中,语音识别系统100包括:前端处理单元110、特征提取单元120、解码单元130、网格重计分(lattice re-scoring)单元140和自适应单元150。
前端处理单元110接收原始语音信号(例如,用户通过麦克风输入的原始语音信号),并对其进行前端处理(例如,区分语音和非语音信号时段、去除噪声等)。前端处理是指对原始语音信号进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。
特征提取单元120从执行过前端处理的语音信号逐帧地提取特征,从而输出特征帧。特征提取必须在一段语音信号上进行,也即进行短时分析。这一段语音信号被认为是平稳的分析区间,被称之为帧。特征提取单元120通常提取Mel频率倒谱系数(MFCC)等特征。
解码单元130利用提取的特征帧和声学模型(AM),以格(lattice)的形式输出发音假设(pronunciation hypothesis)(即,发音格(pronunciationlattice))。具体地说,解码单元130基于输入的特征帧在AM模型空间中进行搜索,以定位最佳的一个或多个以声音表示符号表示的发音假设(即,发音候选)(例如,以拼音或音标形式表示的特征帧),从而输出该最佳的发音假设。网格表示发音的几种不同路径。
网格重计分单元140利用语言模型(LM)和发音网格输出最后识别出的以文字(例如,汉字)表示的语音。
自适应单元150根据用户输入的测试语句的语音信号来更新解码单元130所使用的AM模型的参数,从而该AM模型能够更好地适应特定的用户以及使用环境。
在图2中,语音识别系统200包括:前端处理单元210、特征提取单元220、图(graph)解码单元230、自适应单元240、字素音素转换(grapheme-to-phoneme,G2P)单元250。
前端处理单元210、特征提取单元220和自适应单元240分别与图1中的前端处理单元110、特征提取单元120和自适应单元150相同,将不再赘述。
图表解码单元230利用AM和LM直接输出文字假设(即,最终识别的以文字(例如,汉字)表示的语音,例如,汉字)。
字素音素转换单元250将图表解码单元230输出的文字假设转换为以声音表示符号表示的发音假设(即,网格假设)。
常用的自适应方法包括:本征空间(eigen space)方法、最大后验概率(MAP)方法、基于变换的自适应算法(例如,最大似然线性回归算法(MLLR))等。
本征空间方法可以快速的实现自适应,然而基于本征空间的自适应方法的缺点是存在饱和度的问题。即,当输入的测试语音达到一定量后,自适应的结果不再改善。例如,第2002010444号美国专利申请公开了一种基于本征空间的自适应方法,利用该方法当输入的测试语音多于10秒之后,自适应后的系统的性能不再改善。
此外,虽然MAP方法和MLLR不存在饱和度的问题,然而却需要足够量或预定量的测试语音数据才能实现自适应处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社;北京三星通信技术研究有限公司,未经三星电子株式会社;北京三星通信技术研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010175678.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:皮肤外牵引器
- 下一篇:具有除尘功能的双风扇式散热装置及其控制电路与鳍片组