[发明专利]利用置信度测度的自动语音识别(ASR)处理无效
申请号: | 94117734.3 | 申请日: | 1994-10-26 |
公开(公告)号: | CN1115902A | 公开(公告)日: | 1996-01-31 |
发明(设计)人: | 道格拉斯·J·博瑞姆斯;迈克斯·S·斯道福勒 | 申请(专利权)人: | 美国电报电话公司 |
主分类号: | G10L9/00 | 分类号: | G10L9/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 杨国旭 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 置信 测度 自动 语音 识别 asr 处理 | ||
本发明涉及自动语音识别(ASR),特别是涉及在利用自动语音识别的系统中装备的用户接口处理,其中,计算个人语音输入的ASR译释的置信度测度,并用它来有选择地改变给予该个人语音的处理。
自动语音识别(ASR)系统已开始在各种应用中被广泛接受。1989年5月2日发给Binkerd等人的美国专利4827500描述了一种在呼叫目标中选择的自动语音识别技术,其中呼叫者与一具有ASR功能的声音响应单元互相配合。这种系统或者请求一口头输入,或者为用户提供一选择菜单,然后等待口头响应,利用ASR译释该响应,并执行所请求的动作,所有这一切都没有人的介入。
有设计使用ASR的系统的用户接口中的一个重要问题,是关系到处理识别误差的可能性的问题,这是因为每当ASR系统译释一发音时,总存在关于发音和译释之间对应性的剩余不定度。这个问题对于数字串的输入尤为重要,例如在一系统中呼叫者说出电话号码或信用卡号码。这是因为对于数字串(而且,在某些情况下,甚至对于数字串的一段)仅有85%~90%总精确率并不鲜见。为了对付可能的误差,现在的系统对所有的处理使用某种类型的显式校验,其中误差率引起关注,从而避免处理不正确数字串的可能性。比如,在每一连接的数字串输入后,ASR系统可“回读”最优数字串侯选者,并需要使用该系统的个人给一肯定或否定的响应。一个例子是:“如果你的信用卡号码是XXX—YYYY,请说‘是’,否则说‘不是”。虽然这种类型的显式校验常常是必需的和有用的,但它很麻烦,浪费时间和烦人,特别是对那些ASR系统的频繁用户,或者那些对ASR系统十分信任的用户。如果前一次请求未被识别的话其它系统请求用户重新输入一语音请求。然而,当确认识别以后,则进行静态校验过程。
根据本发明相,使用自动语音识别(ASR)技术的系统中设置了用户接口,以给出一动态过程,其中,根据ASR过程结果中的置信度的水平,对用户进行不同的处理。在一个实施例中,系统这样安排,以利用ASR系统输出的置信度的水平或程度,来区分一发音的易出错误的ASR译释和可能正确的译释。置信度可被确定为由ASR系数选择的第一和第二选择的近似分数(在下面定义)之差的函数。在该实施例中,用户接口这样安排,以使得当置信度较低时,由系统采取的显式校验步骤与当置信度较高时采用的行动不同。此外,根据误译释的“结果”以及相对于特定用户(其语音正在处理)的系统的历史性能,来给出不同的处理。在本发明的另一实施例中,在ASR系统译释一发音之后,评价出译释的置信度,并可能发生三种不同的与用户的相互作用。
示例性地,当ASR系统用于识别数字位时,译释的置信度可以通过在每一发音数字与每一ASR系统已训练的数字模型之间指定一近似记分来确定,这里大分数表示好的对应。因此,对每一发音产生一向量,表明该发音与每一模型的近似。当具有最接近度的模型的近似记分比下一个最优选择的近似记分大很多时,我们说存在着高置信度。这本质上意味着该译释大大优于其它译释。
通过将ASR系统性能结果的置信度式“确定性水平”变换为几个不同的动作,这些动作由产生误差结果的详细分析以及与用户响应校验请求和/或重新输入信息的困难的详细分析共同确定,系统的用户接口得到大大改善,当这些动作被断定时,用户只需重新输入或校验语音输入。
通过结合附图考虑下面的详细描述,可以更充分地理解本发明。附图中,
图1是一流程图,示出当一人用声音输入来拨电话号码后,常规ASR系统采取的步骤;
图2和3合起来是一流程图,示出依据本发明安排的ASR系统,对于用声音输入拨动电话号码者作出响应而采取的步骤;
图4是一框图,示出设置声音处理单元以实现动态用户接口过程(例如图2和3中所述的过程)的一种安排。
图5是一流程图,示出依据本发明的ASR系统中采取的步骤,其中三个不同的结果来自于产生了三种可能置信度级的ASR处理。
首先参考图1,流程图示出常规ASR系统采取的步骤。在这个例子中,一人用声音输入拨动电话号码,ASR系统译释该人的发音并采取行动,比如完成电话呼叫,以响应从ASR系统获得的发音的译释。更具体地,描述了包含拨动10位电话号码(3位区域号,后面7位是本地电话号)的处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于美国电报电话公司,未经美国电报电话公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/94117734.3/2.html,转载请声明来源钻瓜专利网。