[发明专利]语音识别接口装置及其语音识别方法无效

专利信息
申请号: 200810008192.5 申请日: 2008-02-18
公开(公告)号: CN101515456A 公开(公告)日: 2009-08-26
发明(设计)人: 黄盈椿;金南勋 申请(专利权)人: 三星电子株式会社;北京三星通信技术研究有限公司
主分类号: G10L15/00 分类号: G10L15/00;G10L15/08;G10L15/14;G10L15/06;G10L15/26;G10L15/28
代理公司: 北京铭硕知识产权代理有限公司 代理人: 韩明星;谭昌驰
地址: 韩国京畿道水*** 国省代码: 韩国;KR
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语音 识别 接口 装置 及其 方法
【说明书】:

技术领域

发明涉及一种语音识别接口装置及其语音识别方法,尤其涉及一种适用于非母语说话人语音检索任务的语音识别接口装置及其识别方法,通过所述装置和方法,可以提高语音识别引擎对于源自非母语说话人的声音数据的正确率。

背景技术

语音识别作为一种人机交互的接口,它可以将人的语音通过模式识别的方法翻译成对应的文字。语音识别技术发展到了今天,已经具有实时的输入速度和准确的识别精度等等优点。目前基于语音识别的成熟产品已经广泛地应用于PDA,手机,MP3播放器和GPS导航设备中,解决了传统键盘在小型嵌入式设备上操作不便的问题。此外,语音识别技术可以与文本搜索技术巧妙的结合,首先将语音识别模块视作人机交互的前端接口,随后将识别出的命令、文字、关键词等信息作为输入传递到文本检索模块中。具体地,例如姓名拨号,语言翻译,文档检索等等多种文本检索任务都可以应用到语音识别技术。

然而,语音识别技术还有一些问题亟待解决。首要问题就是非母语语音的识别问题。相比于母语语音数据,非母语语音数据存在更多的多样性和不确定性,举个例子,例如当中国人说汉语的时候,大家的发音方式可能趋同,而当说外语的时候,很有可能因为人们对于该语言的熟悉程度不同而因人而异,从而造成发音方式的多样化。然而,不可能搜集到一个能覆盖绝大部分发音变异的非母语语音数据库。即使能收集到这种数据库,由于其大规模的发音变异,使得训练出来的高斯分布更趋于平缓,降低了每个模型间的区分度。因此大部分研究人员把目光放在如何提高母语语音识别系统对于非母语数据的兼容性上。如果研究成功,对于一个公司来说,则可以节省在收集非母语数据库过程中的所花费的大量的时间和费用。

当标准语音识别器遇到非母语语音数据时,识别器的性能会大幅下降。其中导致性能下降的主要因素是母语数据和非母语数据在声学空间上的特征不同;这些不同点包括:1).某些音素发音的不同;2).不同的发音基元,语气强弱,重读,语速和语言上下文。3).当说话人说外语的时候通常会一定程度地保留母语里的一些特征。所以,如何有效的区分这些不同点对于提升标准语音识别器的性能和鲁棒性十分重要。理论上讲,可以采集大量的母语和非母语语音数据,从这些真实数据中找到区分这些不同点的线索和依据。由于非母语语音数据存在着多样性和不确定性,不可能搜集到一个能覆盖绝大部分发音变异的非母语语音数据库。因此,基于非母语语音识别的研究工作大都集中于模型参数自适应方法或多候选发音词典法。上述方法都是基于有限的非母语语音数据的。

对于模型参数自适应方法,一个典型的例子就是应用极大似然线性回归方法(Maximum Likelihood Linear Regression,MLLR),将一个基于母语说话人的声学模型通过线性变换改变成一个近似基于非母语说话人的声学模型。线性变换矩阵通过少量的非母语数据估算出。但是,MLLR自适应技术仅仅改变了模型中所有高斯成分的位置,使得所有高斯成分更加靠近非母语说话人产生的数据,但并没有改变每个高斯分布的形状。因此自适应技术只能提升一定的性能。

对于多候选发音字典法,一个基本的原则是将每一个单词的所有可能的非母语说话人所发出的读音(包括发音的变异等等)添加到用户词典中,然后采用模式匹配、得分重排序或其它自然语言处理的方法获得最佳的识别结果。这种方法的缺点是兼容性差。已有技术的许多成功的案例都是基于西方拉丁语系的。这些语种在发音、强弱、语速等方面有着很大的相似性。所以在这些语种实现多候选发音字典法相对容易些。然而,对于像母语是中文和目标语言是英文这样的情况来说,它们之间的差别很大。中文的发音基元是音节而英文是音素,而且中文和英文的语调、语气也有很大的不同。所以将该方法应用于像Chinese-accent-English的案例时,效果通常会低于预期。

因此,需要提供一种适合于非母语说话人的语音识别装置。

发明内容

为了解决现有技术中的问题,本发明的目的在于提供了一种可以提高非母语语音识别正确率的语音接口装置。

根据本发明的一方面,所述语音识别接口装置包括模型参数估计器和语音识别器。模型参数估计器从外部语音数据库提取目标语言和母语的声学信息,分别训练得到目标语言的声学模型和母语的声学模型,再分别对所述两种声学模型应用模型自适应技术,然后应用高斯成分归并技术得到背景模型;语音识别器分别接收从模型参数估计器输入的背景模型及从外部输入的非母语语音,基于背景模型对输入的非母语语音进行识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三星电子株式会社;北京三星通信技术研究有限公司,未经三星电子株式会社;北京三星通信技术研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200810008192.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top