[发明专利]语音识别系统中确定非目标语言的方法和装置有效
申请号: | 01116330.5 | 申请日: | 2001-04-06 |
公开(公告)号: | CN1317783A | 公开(公告)日: | 2001-10-17 |
发明(设计)人: | J·纳维拉蒂;M·维斯沃纳塔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G10L15/00 | 分类号: | G10L15/00 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 吴立明,张志醒 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 系统 确定 目标 语言 方法 装置 | ||
本发明涉及语音识别系统,特别是,涉及在单一语音识别系统中检测非目标语言的方法和装置。
语音识别和声频检索系统一般为特定的目标语言而开发。这种单一语言系统的词法、语法和声音模型反映了目标语言的典型属性。然而,实际上,这些单一语言的系统可能接收其他非目标语言,导致了较差的性能,包括不正确的转换或检索、潜在的错误翻译或错误的系统反馈。
例如,许多组织诸如广播新闻组织和信息检索服务组织必须处理大量音频信息以便存储和检索。音频信息常常必须用主题或讲话人名字或由两者来分类。为了用主题分类音频信息,语音识别系统最初将音频信息转换成文本供自动分类或检索。之后,可用检索来执行查询资料的匹配以便将相关的文档返回给用户。
然而,如果原始的音频信息包含非目标语言引用,则语音识别系统可能不正确地转换非目标语言的引用,这可能导致源信息的不正确分类或检索。因此,需要在声频转换或语音识别系统中检测非目标语言引用的方法和装置。
随着通讯技术全球化和向广大的、多语言公众提供服务的发展,区分不同语言的能力变得越来越重要了。语言排斥问题与这种能力密切相关并因此涉及到语言自动标识(AL、I)的问题。对语言自动标识技术的详细讨论请见,例如,Y.K.Muthusamy等人的“自动语音识别评论”,IEEE信号处理杂志,11(4):33-41(1994,10);J.Navratil和W.Aühlke的“语言识别中的语音-上下文对应”(Phonetic-Context Mapping in Language Identification),EUROSPEECH-97会议录,第一卷,7-1-74(1997);以及J.Naviatil和W.Aühlke的“语言识别的高效音位结构学-声学系统”(An EfficientPhonotatic-Acoustic System for Language Identifi-cation),Int′l论声学、语音和信号处理会议(ICASSP)录,第二卷,781-84,西雅图,华盛顿,IEEE(1998,5),这里作为参考资料引用。
已经建议和提出了若干自动的语言标识技术用于根据语音信号中包含的各种特性区分出各种语言。已经标识出好几种语言区分信息源作为语言识别任务相关的信息,包括,例如,韵律学、声学、和语法及词法结构。根据语音的韵律学或声学自动识别语言的技术试图分别根据典型的语调和发音模式来识别给定的语言。
然而,由于根据语法和词法结构的自动语言标识技术的复杂性,大多建议都有根据声-韵信息或派生的词法特性的先进技术以用便不太复杂的方式表示其语音结构。已开发了语音链中固有模型统计依存关系的ALI技术,称为音位结构学。在统计意义中,音位结构学可以被看作语言的语法和词法规则子集。因为在不同的语言中这些规则也不同,区分这些语言的能力自然就反映在音位结构特性中。
总体上,本发明公开了在音频转换或语言识别系统中用置信评分探测非目标语言引用的方法和装置。该置信评分可能基于(ⅰ)由语音识别系统提供的概率引擎评分,(ⅱ)基于背景模型的附加分或(ⅲ)前述的综合。由语音识别系统为给定的输入语音的表达提供的引擎评分反映了声音和语言的表达与训练的目标语言的匹配度。在一个说明性实现方案中由语音识别系统提供的概率引擎评分与背景模型评分结合以便标准化引擎评分以及考虑到可能出现非目标语言。标准化缩小了讲话者和通道的评分变化范围。
当置信评分低于预定标准时,本发明识别音频流中的非目标语言表达。根据本发明的一个方面当检测到非目标语言中的语音时,语言排斥机构中断或修正转换过程。本发明用这种方式防止不正确的转换和索引以及语音识别输出的错误翻译。
在出现非目标语言表达时,转换系统不能根据其本地词汇、语言模型和声音模型发现良好的匹配。产生的识别文本将有较低的引擎评分值。因此,当引擎评分低于预定阈值时可能单独用引擎评分来识别非目标语言。
根据几种语言中的语音数据来建立或训练背景模型,它可能或可能不包含目标语言自身。可能为每种模型化的语言采用若干种背景语言模型,包括一个或多个(ⅰ)韵律模型;(ⅱ)声音模型;(ⅲ)音位结构模型和(ⅳ)关键字识别(spotting)模型。
通过参考下面的详细说明和附图将更全面了解本发明以及本发明的进一步特性和优点。
图1示出按本发明的非目标语言识别系统;
图2是一幅示意方框图,示出图1的背景语言构型模块的结构;和
图3是一幅流程图,描述图2的背景语言构型模块采用的背景模型评分计算过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01116330.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:计算机式讲稿记录和复制方法
- 下一篇:组合密封环