[发明专利]基于唇部检测的查询端点化有效
申请号: | 201711049276.9 | 申请日: | 2017-10-31 |
公开(公告)号: | CN108573701B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 金澯佑;R.C.农皮乌尔;M.A.U.巴奇亚尼 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 唇部 检测 查询 端点 | ||
描述了用于改善由用户提交的言语查询的端点检测的系统和方法。在一些实施方式中,接收同步的视频数据和音频数据。确定包括与脸部上的唇部移动对应的图像的视频数据的帧序列。基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据来端点化音频数据。端点化的音频数据的录音由自动语音识别器生成。然后生成的录音被提供用于输出。
技术领域
本说明书通常涉及自动语音识别(ASR)。
背景技术
自动语音识别(ASR)通常用于促进由用户提供的任务和/或命令的完成。例如,智能个人助理(PA)系统经常使用ASR来识别用户的口头命令以响应于该命令而执行指定动作。PAS可以基于用户输入、位置感知和/或从各种在线来源(例如天气或交通状况、新闻、股票价格、用户日程、零售价格等)访问信息的能力来执行动作。
发明内容
许多PA系统通常仅处理用户的音频数据编码话音(utterance)以识别和录音(transcribe)由用户提交的言语查询。然而,如果接收到的音频数据包括例如由于背景声音的高噪声电平,则可能难以准确地端点化(endpointing)音频数据以识别与所提交的言语查询相对应的音频的语音部分。结果,许多PA系统经常错误地识别或录音音频数据,包括例如包括不对应于用户的言语查询的音频段的音频数据、例如在用户的言语查询之前或之后的背景噪声。
在一些实施方式中,系统能够改善由用户提交的言语查询的端点检测。例如,系统可以初始地获得编码所提交的言语查询的音频数据、以及与包括当提交言语查询时的用户脸部的图像的所获得的音频数据同步的视频数据。然后,该系统使用技术来区分对应于语音输入的音频数据的部分和对应于非语音输入的言语查询的其它部分(例如背景噪声)。作为示例,系统初始地确定包括用户脸部的图像的视频帧序列。然后,系统识别包括检测到的唇部移动的图像的视频帧序列。在一些实施方式中,系统确定序列的第一帧和最后帧、以及它们对应的时间点。然后,系统识别音频数据中的具有与视频帧序列的第一和最后帧的时间点对应的开始和结束时间点的音频段。系统端点化音频数据以提取音频段,并提供音频段以输出到ASR用于录音。
通篇描述的端点化技术可用于为PA系统提供各种优点。例如,由于使用同步的视频数据来验证音频数据的语音部分,所以可以使用端点化技术来例如减少假阳性(falsepositive)言语查询检测,减少指定的PA系统激活术语或短语的错过(missed)检测,或者识别在编码接收到的查询的音频数据内的多个言语命令的发生。此外,在一些实施方式中,检测到的唇部移动数据可以用作由ASR系统独立验证语音识别以减少生成不正确的录音假设(hypotheses)的可能性。例如,可以针对指示用户所说的术语和/或短语的检测到的唇部移动数据来验证基于将语音识别技术应用于音频数据而生成的基线录音假设,以识别和/或纠正错误识别的术语。
在一个方面,一种计算机实现的方法可以包括:接收同步的视频数据和音频数据;确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像;基于对应于帧序列的第一帧的第一音频数据和对应于帧序列的最后一帧的第二音频数据,端点化音频数据;通过自动语音识别器生成端点化的音频数据的录音;并提供所生成的录音以输出。
一个或多个实施方式可以包括以下可选特征。例如,在一些实施方式中,确定视频数据的帧序列包括与脸部上的唇部移动相对应的图像包括:识别与脸部上的唇部移动相对应的图像的一个或多个特征统计;以及确定一个或多个所识别的特征统计包括被确定为表示唇部移动相关语音的特征统计。
在一些实施方式中,该方法还包括:确定视频数据包括用户运动;并且响应于确定视频数据包括用户动作,确定视频数据的帧序列包括脸部的图像。
在一些实施方式中,从智能电话接收同步的视频数据和音频数据;该同步的视频数据由智能电话的前置摄像机捕获。
在一些实施方式中,端点化的音频数据对应于编码由用户提交的言语查询的音频数据的一部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711049276.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能随动屏系统
- 下一篇:具有域歧义消除的启用语音功能的系统