[发明专利]基于唇部检测的查询端点化有效

申请号：	201711049276.9	申请日：	2017-10-31
公开（公告）号：	CN108573701B	公开（公告）日：	2021-11-30
发明（设计）人：	金澯佑;R.C.农皮乌尔;M.A.U.巴奇亚尼	申请（专利权）人：	谷歌有限责任公司
主分类号：	G10L15/22	分类号：	G10L15/22;G06K9/00
代理公司：	北京市柳沈律师事务所 11105	代理人：	邵亚丽
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于唇部检测查询端点
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种计算机实现的方法，包括：

接收视频数据和与所述视频数据同步的音频数据；

确定所述视频数据的视频帧的序列包括具有移动唇部的脸部的表示；

将包括具有移动唇部的脸部的表示的所述视频帧的序列作为输入提供给被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的模型；

基于将包括具有移动唇部的脸部的表示的所述视频帧的序列作为输入提供给被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的模型，从所述模型接收确定以下内容的指示：(i)包括具有移动唇部的脸部的表示的所述视频帧的序列的第一部分与语音相关联，以及(ii)包括具有移动唇部的脸部的表示的所述视频帧的序列的第二部分与除语音之外的动作相关联；

基于确定(i)包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第一部分与语音相关联，以及(ii)包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第二部分与除语音之外的动作相关联，提取与包括具有移动唇部的脸部的表示的所述视频帧的序列的所述第一部分同步的音频数据的部分；

由自动语音识别器，通过对与所述视频帧的序列同步的音频数据的提取部分执行语音识别而不对除了与所述视频帧的序列同步的音频数据的提取部分之外的音频数据执行语音识别，来生成所述音频数据的提取部分的录音；以及

提供生成的录音，以用于输出。

2.根据权利要求1所述的方法，其中：

确定所述视频数据的视频帧的序列包括具有移动唇部的脸部的表示包括：

识别对于具有移动唇部的脸部的表示的一个或多个特征统计；并且被训练以确定唇部移动是与语音相关联还是与除语音之外的动作相关联的所述模型被配置为：

确定一个或多个所识别的特征统计是否包括对于与语音相关联的唇部移动的特征统计。

3.根据权利要求1所述的方法，包括：

确定视频数据包括用户动作；以及

响应于确定视频数据包括用户动作，确定视频数据的视频帧的序列包括具有移动唇部的脸部的表示。

4.根据权利要求1所述的方法，其中：

从智能电话接收视频数据和与所述视频数据同步的音频数据；以及