[发明专利]用于智能相机说话者跟踪和取景的面部检测引导的声源定位水平角度后处理在审

申请号：	202210836338.5	申请日：	2022-07-15
公开（公告）号：	CN115696037A	公开（公告）日：	2023-02-03
发明（设计）人：	Y·刘;P·L·朱	申请（专利权）人：	缤特力股份有限公司
主分类号：	H04N23/67	分类号：	H04N23/67;H04N23/611;H04N23/95;H04R1/32;H04N7/15;G06N20/00;G06N3/08
代理公司：	上海专利商标事务所有限公司 31100	代理人：	李炜;张鑫
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于智能相机说话跟踪取景面部检测引导声源定位水平角度处理
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了用于智能相机说话者跟踪和取景的面部检测引导的声源定位水平角度后处理。一种视频会议系统包括获取图像数据的相机和获取音频数据的麦克风阵列。图像数据与声源定位(SSL)数据结合使用以定位所述图像数据中描绘的说话者。SSL处理所述音频数据并且确定指示声音的估计方向的SSL水平角度值。图像中的像素的列与槽相关联。针对落在给定的槽内的所述音频数据的每个SSL水平角度值，使槽计数增加。确定所述图像数据中的涵盖所述图像数据中描绘的面部的边界框。确定所述边界框的像素范围，诸如从最左列延伸到最右列。具有最高槽计数的、还与边界框的像素范围重叠的槽被视为包含所述说话者。

优先权

本申请要求2021年7月22日提交的名称为“Face Detection Guided SoundSource Localization Pan Angle Post Processing for Smart Camera TalkerTracking and Framing(用于智能相机说话者跟踪和取景的面部检测引导的声源定位水平角度后处理)”的美国临时专利申请号63/203,435的优先权，该专利申请通过引用以其全文并入在此。

背景技术

在视频会议中，期望相机聚焦于说话者，而不是维持房间全景。为了帮助这种聚焦，使用声源定位(SSL)来提供使相机聚焦以捕获说话者的方向或角度。可以使用各种方法来确定SSL角度。然而，会议室音响效果(诸如回声)以及说话者与麦克风阵列之间的距离可能会导致所确定的SSL角度的抖动。这样的抖动使对说话者取景更具挑战性。

附图说明

为了说明，在附图中示出本公开中描述的某些示例。在附图中，相同的数字始终表示相同的元件。本文所公开的本发明的完整范围不限于所示的精确布置、尺寸和设备。在附图中：

图1是根据一些实现方式的包含相机、麦克风阵列、监视器以及桌子和椅子的会议室的顶视图图示。

图2是根据一些实现方式的图1的会议室的顶视图图示，其中若干个体中的一者正在说话。

图3是根据一些实现方式的图2的会议室的相机视图图示。

图4是根据一些实现方式的图3的相机视图图示，其中指示了像素边界。

图5是根据一些实现方式的在编解码器与具有麦克风阵列的相机之间的操作的划分的图示。

图6是根据一些实现方式的用于使用面部辨识数据来确定最终SSL角度的流程图。

图7是根据一些实现方式的编解码器的框图。

图8是根据一些实现方式的相机的框图。

图9是根据一些实现方式的处理器的框图。

图10是根据一些实现方式的相机的前视图的图示。

具体实施方式

声源定位(SSL)是处理由麦克风阵列获取的音频数据样本以确定由麦克风阵列检测到的声音的源位置(例如，SSL水平角度)的过程。会议室音响效果以及说话者与麦克风阵列之间的距离可能会引起SSL水平角度数据的抖动。为了提供更稳定的SSL水平角度数据，可以将SSL水平角度数据与图像数据进行组合。更稳定的SSL水平角度数据然后可以用于在视频会议期间改进对说话者的取景。

视频会议系统可以包括获取图像数据的一个或多个相机和获取音频数据的麦克风阵列。图像数据可以由经训练的机器学习系统处理，以检测在会议室内的个体的一个或多个特征。这些特征可以包括个体的面部、头部、身体等。例如，在一个实施例中，经训练的机器学习系统可以输出说明会议室中的个体的面部的数据，其中面部被描绘为在边界框内。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于缤特力股份有限公司，未经缤特力股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210836338.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种适用于铝绞线的小型断路器扩展模块
下一篇：存储设备、存储系统操作方法和计算系统

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于智能相机说话者跟踪和取景的面部检测引导的声源定位水平角度后处理在审

专利文献下载