[发明专利]用于单个和多个发言者的双模式AGC有效

专利信息
申请号: 201310052511.3 申请日: 2013-02-06
公开(公告)号: CN103247297A 公开(公告)日: 2013-08-14
发明(设计)人: N·恩伯姆;J·斯科格伦德;A·J·麦克唐纳德;B·沃尔克 申请(专利权)人: 谷歌公司
主分类号: G10L25/27 分类号: G10L25/27;G06K9/00;H04N7/15
代理公司: 北京市金杜律师事务所 11256 代理人: 酆迅
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 单个 发言者 双模 agc
【说明书】:

相关申请的交叉引用

本申请要求2012年2月7日提交的美国申请No.13/368,173的权益,其全部内容通过引入合并于此。

技术领域

本公开总体上涉及自动增益控制(AGC)机制,该AGC机制用于利用单个发言者模式和多发言者模式的(双模)会议系统。

背景技术

自动增益控制(AGC)机制旨在对麦克风增益(数字或模拟)进行设置,使得个体发言被以适当的电平记录。然而,当麦克风被正在发言的个体(单个发言者)或正在发言的多个个体(多个发言者)使用时,如果AGC机制没有正确地判断正在发言的个体的数目,则该AGC机制可能无法正确地调整正在发言的每个个体的增益。

此外,当开会期间个体正在发言(例如,通过头戴耳机),而背景中出现其他人(非与会者)正在谈话时,可能受增益改变而产生不利影响。更具体地,系统(例如,麦克风系统)可以确定有多个个体正在发言,并且基于有正在发言的多个个体而事实上只有一个正在发言的真实/期望个体来进行增益改变。因此,需要AGC机制可以正确地判断是否存在一个或多个真实或期望个体正在发言而不只是判断是否存在一个或多个所检测个体正在发言。

发明内容

本发明内容以简要形式介绍概念的选择,以便提供本公开的一些方案的基本理解。发明内容不是本公开的详尽概述,并且不是意图标识本公开的关键或至关重要的元素或者界定本公开的范围。发明内容仅仅提供本公开的一些概念以作为下文呈现的详细描述的序言。

本发明的多个方面提供了一种用于改变通信系统中音频电平的控制系统,其中该控制系统包括至少一个接收单元用于接收音频信号和视频信号;确定单元用于通过对所述音频信号或视频信号执行识别来确定正在发言的个体的数目;以及增益调整单元用于基于所确定的正在发言的个体的所述数目来调整所述音频信号的增益。

根据本发明的一个实施方式,所述识别通过执行脸部识别或语音分析来执行以便确定正在发言的个体的数目。

根据本发明的另一实施方式,所述识别通过对音频信号执行语音分析来执行以便确定正在发言的个体的数目。

根据本发明的另一实施方式,所述识别通过对视频信号执行脸部识别来执行。

根据本发明的另一实施方式,控制系统进一步包括切换单元用于基于所述检测到的正在发言的个体的数目在单个发言者模式与多发言者模式之间切换。

根据本发明的另一实施方式,脸部识别被执行用于检测一个或多个脸部。

根据本发明的另一实施方式,控制系统进一步包括切换单元用于基于所检测到的脸部的数目在单个发言者模式与多发言者模式之间切换。

根据本发明的另一实施方式,响应于所述检测到多个脸部,切换单元从单个发言者模式切换到多发言者模式,并且增益调整单元在多发言者模式中以第一速率调整音频信号的增益;响应于所述仅检测到单个脸部,切换单元从多发言者模式切换到单个发言者模式,并且增益调整单元在单个发言者模式中以第二速率调整音频信号的增益,并且其中所述第一速率是不同于所述第二速率的速率。

根据本发明的另一实施方式,所述第一速率是大于所述第二速率的速率。

根据本发明的另一实施方式,检测单元通过将所检测到的语音的音量与至少一个阈值进行比较来确定所检测到的语音的音量是否在给定音量范围之外;该检测单元基于所检测到的语音的音量出现在给定音量范围之外来确定所检测到的语音的音量是否在给定音量范围之外;该检测单元基于所检测到的语音的音量来确定第一速率;以及该检测单元基于所检测到的语音的音量来确定第二速率。

根据本发明的另一实施方式,至少一个接收单元接收具有音频信号和视频信号两者的数据流。

根据本发明的另一实施方式,该至少一个接收单元包括第一接收单元用于接收音频信号;以及该至少一个接收单元包括第二接收单元用于接收视频信号。

根据本发明的另一实施方式,该第一接收单元是麦克风,并且该第二接收单元是相机。

此外,本发明的多个方面提供了一种用于改变通信系统中音频电平的控制方法,其中该控制方法包括以下步骤:接收音频信号;接收视频信号;对所述视频信号或音频信号执行识别来确定正在发言的个体的数目;以及基于所确定的正在发言的个体的所述数目来调整所述音频信号的增益。

根据本发明的一个实施方式,所述识别通过执行脸部识别或语音分析来执行以便确定正在发言的个体的数目。

根据本发明的另一实施方式,所述识别通过对音频信号执行语音分析来执行以便确定正在发言的个体的数目。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310052511.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top