[发明专利]用于时延降低的自动语音辨识的得分趋势分析在审
申请号: | 201980006356.7 | 申请日: | 2019-01-03 |
公开(公告)号: | CN111465980A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 乔基姆·霍费尔;乔治·施特默尔;约瑟夫·G·鲍尔;穆尼尔·尼古拉·亚力山大·乔治 | 申请(专利权)人: | 英特尔IP公司 |
主分类号: | G10L15/01 | 分类号: | G10L15/01;G10L25/78;G10L15/08 |
代理公司: | 北京东方亿思知识产权代理有限责任公司 11258 | 代理人: | 李丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 降低 自动 语音 辨识 得分 趋势 分析 | ||
提供了使用假设得分趋势分析来减少自动语音辨识的时延的技术。实现根据实施例的技术的方法包括:基于语音片段来生成完整语句假设和部分语句假设以及相关联的似然性得分。该方法还包括:选择与最高的完整语句假设似然性得分相关联的完整语句假设,以及选择与最高的部分语句假设似然性得分相关联的部分语句假设。该方法还包括:基于与所选择的完整语句假设相关联的似然性得分和与所选择的部分语句假设相关联的似然性得分的比率,来计算相对似然性得分。该方法还包括:计算相对似然性得分随时间变化的趋势,并且基于确定该趋势在选定时间段内没有降低而识别出语音的终点。
背景技术
采用语言理解系统的人机接口正变得越来越流行。这些系统被配置为辨识用户说出的命令并提供对该命令的适当响应。这些系统影响用户体验的质量的一个重要特性是时延(即系统响应用户输入所花费的时间长度)。造成时延的一个重要因素是检测与语音辨识相关联的用户语音表达结束的能力。语音终点检测的一种途径依赖于基于信号能量的存在而进行的语音活动检测。如果在预定义时间段内未检测到声音活动(声音信号能量),则会作出用户已停止讲话的假设。但是,此技术在嘈杂的环境中效果不佳,在这种环境中,背景噪声可能被误辨识为声音信号能量,这导致无法检测到终点,继而导致系统变得无响应。语音终点检测的另一种途径是在经过预定义时间段后声明终点,语音辨识器的最佳假设在该预定义时间段内没有发生变化。但是,该技术要求预定义时间段足够长,以保证可以说出尽可能长的语句,这同样增加了系统时延。
附图说明
随着以下具体实施方式的进行并通过参考附图,所要求保护的主题的实施例的特征和优点将变得清晰可见,其中相同的附图标记表示相同的部分。
图1是根据本公开的某些实施例配置的具有时延降低的ASR(自动语音辨识)的语言理解系统的框图。
图2是根据本公开的某些实施例的关于语音终点检测的相对似然性得分趋势的曲线图。
图3是根据本公开的某些实施例配置的终点检测器电路的框图。
图4是根据本公开的某些实施例配置的得分趋势计算电路的框图。
图5是示出根据本公开的某些实施例的用于语音终点确定的示例方法的流程图。
图6是根据本公开的某些实施例的关于语音终点检测的错误率与时延的比较图。
图7是图示出根据本公开的某些实施例的用于时延降低的自动语音辨识的方法的流程图。
图8是根据本公开的某些实施例示意性地图示出被配置为执行时延降低的自动语音辨识的计算平台的框图。
尽管将参考说明性实施例进行下面的具体实施方式,但是根据本公开,其许多替代、修改和变型将是清晰可见的。
具体实施方式
总体上,本公开提供了用于时延降低的自动语音辨识(ASR)的技术。该技术采用基于对一个或多个ASR假设的得分趋势分析的语音终点检测。ASR处理器生成识别结果所需的时间(在本文中一般称为ASR时延)可能会受到确定用户的语音的终点所需的时间的显著影响。在接收到和处理足量的语音之前做出语音终点辨识判定可能会增加错误率(就错误地声明终点而言)。但是,如果等待太长时间以确保用户已完成讲话可能会导致过长的时延。降低时延同时保持期望的错误率可改善用户与系统的交互体验。所公开的技术在接收到额外的用户语音时跟踪ASR生成的假设随时间的或然率(probability)或似然性(likelihood)得分,并基于这些得分的比率的趋势来确定语音终点,这将在下面更详细地解释。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔IP公司,未经英特尔IP公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980006356.7/2.html,转载请声明来源钻瓜专利网。