[发明专利]改进的用于ASR的混合控制器有效
申请号: | 201280076276.7 | 申请日: | 2012-10-04 |
公开(公告)号: | CN104769668B | 公开(公告)日: | 2018-10-30 |
发明(设计)人: | D·维利特;吴建雄;P·沃兹拉;W·F·甘农三世 | 申请(专利权)人: | 纽昂斯通讯公司 |
主分类号: | G10L15/30 | 分类号: | G10L15/30 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 陈新 |
地址: | 美国马*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 用于 asr 混合 控制器 | ||
描述了一种适于自动语音识别(ASR)的移动设备。语音输入部接收来自用户的未知语音输入信号。本地控制器确定远程ASR处理条件是否满足,将语音输入信号转换为许多不同的语音表示类型中的所选一种,并发送转换后的语音输入信号到远程服务器用于远程ASR处理。本地ASR布置执行语音输入的本地ASR处理,本地ASR处理包括处理从远程服务器接收到的任何语音识别结果。
技术领域
本发明一般滴地涉及自动语音识别(ASR),更具体地说,涉及移动设备上的客户机-服务器ASR。
背景技术
自动语音识别(ASR)系统确定语音输入的语义含义。典型地,输入语音被处理为数字语音特征帧的序列。每一语音特征帧可被认为是多维向量,其表示在语音的短时窗期间呈现的语音信号的各种特性。例如每一语音帧的多维向量可从语音信号的短时傅立叶变换频谱的倒频谱特征(MFCC)——给定频带的短时功率或分量——以及相应的一阶和二阶导数(“delta”和“delta-delta”)而得出。在连续识别系统中,可变数量的语音帧组织成“话语”——其表示停顿之前的一段语音,这在现实生活中松散地对应于所说的句子或短语。
ASR系统对比输入话语以找出与向量序列特性最佳匹配的统计声学模型,并确定与声学模型相关联的对应的文字表示。更正式地,给定一些输入观察值A,特定词串W被说出的概率表示为P(W|A),其中ASR系统试图确定最可能的词串:
给定统计声学模型的系统,该公式可以重新表示为:
其中P(A|W)对应于声学模型,P(W)反映由统计语言模型提供的词序列的先验概率。
声学模型通常是通过使用概率分布函数(高斯)的混合来对语音声音进行建模的概率状态序列模型,诸如隐马尔可夫模型(HMM)。声学模型通常表示特定上下文中的音素——称为PEL(语音元素),例如具有已知的左和/或右上下文的音素或者三音素。状态序列模型可按比例放大,以表示作为声学建模音素的连接序列的词语,和作为词语的连接序列的短语或句子。当模型被组织在一起作为词语、短语和句子时,附加的语言相关的信息也通常以统计语言模型的形式并入到模型中。
与最佳匹配模型结构相关联的词语或短语被称为识别候选或假设。系统可以产生单个最佳识别候选——识别结果——或者各种形式(诸如N-最佳列表、识别点阵或混淆网络)的多个识别假设。关于连续语音识别的进一步细节在题为“Continuous SpeechRecognition”的美国专利号5,794,189以及题为“Speech Recognition Language Models”的美国专利号6,167,377中提供,其内容通过引用全部并入于此。
最近,ASR技术已发展得足以具有在移动设备的有限范围(footprint)上实现的应用。这可以涉及移动设备上比较有限的独立ASR布置,或者可以在客户机-服务器布置中提供更广泛的能力,在客户机-服务器布置中本地移动设备进行语音输入的初始处理以及可能的一些本地ASR识别处理,但主要的ASR处理在具有更多资源的远程服务器处执行,接着识别结果被返回以供在移动设备处使用。
美国专利公开20110054899描述了用于移动设备的混合的客户机-服务器ASR布置,其中语音识别可由该设备本地执行和/或由远程ASR服务器远程执行,这取决于一个或多个标准,诸如时间、策略、置信度分数、网络可用性等。
发明内容
本发明的实施例涉及用于自动语音识别(ASR)的移动设备和对应的方法。本地控制器确定远程ASR处理条件是否满足,将语音输入信号转换为多种不同的语音表示类型中所选的一种,并发送转换后的语音输入信号到远程服务器用于远程ASR处理。本地ASR布置执行语音输入的本地ASR处理,本地ASR处理包括处理从远程服务器接收到的任何语音识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于纽昂斯通讯公司,未经纽昂斯通讯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201280076276.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:包括近场换能器和粘合层的器件
- 下一篇:用于减少数字视频图像数据的方法和装置