[发明专利]启动包括第一功能和第二功能的多个功能的系统和方法无效
申请号: | 201010281080.4 | 申请日: | 2010-09-10 |
公开(公告)号: | CN102024013A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 加勒特·L·魏因贝格 | 申请(专利权)人: | 三菱电机株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G10L15/22 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;孙海龙 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 启动 包括 第一 功能 第二 系统 方法 | ||
技术领域
本发明总体上涉及自动语音识别,更具体地涉及针对特定语境的自动语音识别。
背景技术
自动语音识别(ASR)
自动语音识别的目的是获得表示语音的声音信号、即语音信号,并通过模式匹配确定被说出的词。语音识别器通常具有一组在计算机数据库中存储的表示为模式的声音和语言模型。这些模型接着与获得的信号进行比较。计算机数据库的内容、如何训练该数据库、以及用于确定最佳匹配的技术是不同类型语音识别系统的区别特征。
已知各种语音识别方法。音段模型方法假设在口头语言中存在可以由该语音信号中经由时间的一组特性表现其特征的独特的语音单元,如音素。将输入语言信号分段为不连续的音段,在音段中声音特性表示一个或更多个语音单元并且根据这些特性将标记附接到这些区域。与语音识别任务的约束一致的有效词表的词然后根据指派的一系列语音标记而被确定。
基于模板的方法直接使用语音模式,而不需要显式的特征确定和分段。使用已知的语音模式而最初对基于模板的语音识别系统进行训练。在识别期间,未知的语音信号与在训练期间获得的每个可能模式进行比较,并根据未知模式匹配已知模式的程度而被分类。
混合方法组合了上述音段模型和基于模板的方法的特定特征。在特定系统中,在识别处理中不仅仅使用语音信息。此外,神经网络已用于语音识别。例如,在一个这样的网络中,模式分类器检测声音特征矢量并利用匹配该声音特征的滤波器来卷积矢量以及随时间计算这些结果的和。
ASR支持系统
ASR支持系统包括两个主要类别,即信息检索(IR)系统以及命令和控制(CC)系统。
信息检索(IR)
一般来说,信息检索(IR)系统基于口头查询搜索存储在数据库中的内容。该内容可以包括任何类型的多媒体内容,诸如、但不限于文本、图像、音频和视频。查询包括关键词或短语。许多IR系统允许用户指定在搜索期间应用的附加约束。例如,约束可以指定全部返回的内容具有一定范围的属性。通常,查询和约束被指定为文本。
对于一些应用,文本输入和输出是困难的,如果不是不可能的话。这些应用例如包括搜索数据库的同时操作机械或车辆,或者利用功能受限的键盘或显示器的应用,诸如电话。对于这样的应用,支持ASR的IR系统是优选的。
支持ASR的IR系统的示例描述在2009年6月2日颁发给Wolf等人的美国专利7542966,“Method and system for retrieving documents with spoken queries”中。
命令和控制(CC)
支持ASR的CC系统将口头命令识别和解释为机器可理解的命令。口头命令的非限制示例是“呼叫”指定的电话号码,或“播放”指定的歌曲。多个支持ASR的CC系统已由于在语音识别软件方面的最新进展而被开发。通常,这些系统操作在使用针对口头命令的特定语境的特定环境中。
语境型ASR支持系统
大型的词表和复杂的语言模型使ASR支持系统变慢,并且需要更多的诸如存储器资源和处理处理的资源。大型的词表还可以降低系统的准确性。因此。多数ASR支持系统具有小的词表和通常与相关语境关联的简单语言模型。例如,美国专利第4989253号公开了一种用于移动和聚焦显微镜的ASR支持系统。该系统使用与显微镜关联的语境。另外,美国专利第5970457号公开一种根据与适当语境关联的口头命令、用于操作诸如外科工具的医疗设备的ASR支持系统。
但是,多个ASR支持系统需要包括用于不同语境的多个词表和语言模型。这样的系统通常配置为基于用户选择的关注语境而启动适当的词表和语言模型。
如这里所限定的,ASR支持系统的语境是(但不限于)词表、语言模型、语法、领域、数据库和/或具有有关语境功能的子系统。例如,与音乐、联系人、餐馆、历史古迹点有关的功能每个将具有单独和可区分的语境。利用多个语境的ASR支持系统是语境型ASR支持系统。
因此,对于语境型ASR支持系统,必须指定针对口头查询或口头命令的语境。
采用PTT功能的ASR支持系统
存在从背景噪声或背景语音中区分想要的语音输入的不同类型的ASR系统。通常的收听系统对识别出的音频信号进行词法分析以检测关键词,如“计算机”,这些收听系统想要启动ASR支持系统来进行进一步输入。
另一类型的ASR支持系统利用人对人演讲后建模的其他输入线索,诸如凝视的方向。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三菱电机株式会社,未经三菱电机株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010281080.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:自锁式模具抽芯装置
- 下一篇:一种注塑模潜伏式浇口流道拼装结构