[发明专利]基于唇部检测的查询端点化有效
申请号: | 201711049276.9 | 申请日: | 2017-10-31 |
公开(公告)号: | CN108573701B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 金澯佑;R.C.农皮乌尔;M.A.U.巴奇亚尼 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G06K9/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 邵亚丽 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 唇部 检测 查询 端点 | ||
1.一种计算机实现的方法,包括:
接收视频数据和与所述视频数据同步的音频数据;
确定所述视频数据的视频帧的序列包括具有移动唇部的脸部的表示;
将包括具有移动唇部的脸部的表示的所述视频帧的序列作为输入提供给被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的模型;
基于将包括具有移动唇部的脸部的表示的所述视频帧的序列作为输入提供给被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的模型,从所述模型接收确定以下内容的指示:(i)包括具有移动唇部的脸部的表示的所述视频帧的序列的第一部分与语音相关联,以及(ii)包括具有移动唇部的脸部的表示的所述视频帧的序列的第二部分与除语音之外的动作相关联;
基于确定(i)包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第一部分与语音相关联,以及(ii)包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第二部分与除语音之外的动作相关联,提取与包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第一部分同步的音频数据的部分;
由自动语音识别器,通过对与所述视频帧的序列同步的音频数据的提取部分执行语音识别而不对除了与所述视频帧的序列同步的音频数据的提取部分之外的音频数据执行语音识别,来生成所述音频数据的提取部分的录音;以及
提供生成的录音,以用于输出。
2.根据权利要求1所述的方法,其中:
确定所述视频数据的视频帧的序列包括具有移动唇部的脸部的表示包括:
识别对于具有移动唇部的脸部的表示的一个或多个特征统计;并且被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的所述模型被配置为:
确定一个或多个所识别的特征统计是否包括对于与语音相关联的唇部移动的特征统计。
3.根据权利要求1所述的方法,包括:
确定视频数据包括用户动作;以及
响应于确定视频数据包括用户动作,确定视频数据的视频帧的序列包括具有移动唇部的脸部的表示。
4.根据权利要求1所述的方法,其中:
从智能电话接收视频数据和与所述视频数据同步的音频数据;以及
所述视频数据由智能电话的前置摄像机捕获。
5.根据权利要求1所述的方法,其中所述音频数据的提取部分编码由用户所说的言语查询。
6.根据权利要求5所述的方法,包括:
响应于确定视频数据的视频帧的序列的所述第一部分包括具有与语音相关联的移动唇部的脸部的表示,激活个人助理系统以处理由用户所说的言语查询。
7.根据权利要求1所述的方法,其中确定所述视频数据的视频帧的序列包括具有移动唇部的脸部的表示包括:
获得所述视频数据的连续视频帧的多个子集;以及
使用深度神经网络处理所述视频数据的连续视频帧的子集中的每一个子集,所述深度神经网络配置为:
接收连续视频帧的每个子集;以及
针对连续视频帧的每个子集计算置信度分数,所述置信度分数表示连续视频帧的子集包括具有移动唇部的脸部的表示的可能性。
8.根据权利要求1所述的方法,其中,被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的所述模型被配置为:
从视频数据获得视频帧的序列的连续视频帧的多个子集;以及
使用深度神经网络处理视频帧的序列的连续视频帧的子集中的每一个子集,所述深度神经网络配置为:
接收视频帧的序列的连续视频帧的每个子集;以及
针对视频帧的序列的连续视频帧的每个子集计算置信度分数,所述置信度分数表示连续视频帧的子集包括具有与语音相关联的唇部移动的脸部的表示的可能性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711049276.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能随动屏系统
- 下一篇:具有域歧义消除的启用语音功能的系统