[发明专利]一种基于多方位音频辅助的人群计数方法在审

申请号：	202310512640.X	申请日：	2023-05-09
公开（公告）号：	CN116630881A	公开（公告）日：	2023-08-22
发明（设计）人：	闵卫东;邹怡;赵浩宇;汪琦	申请（专利权）人：	南昌大学
主分类号：	G06V20/52	分类号：	G06V20/52;G10L25/03;G10L21/0208;G06V10/80;G06V10/82
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	王焕巧
地址：	330000 江西省***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多方位音频辅助人群计数方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于多方位音频辅助的人群计数方法，所述计数方法包括以下步骤：VCC模块结合多种尺寸卷积核的空洞卷积，从图像中提取人群特征；通过自适应将多级上下文信息编码到VCC模块产生的特征中，提取视觉特征；ACC模块对原始的多段多方向音频进行初步融合和特征提取；将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合，再进行单个卷积操作生成密度图。本发明提出的框架，解决了透视问题、低照度场景以及不同位置对音频特征提取的影响，同时这是人群计数领域第一次尝试使用多段多方向音频辅助人群计数。

技术领域

本发明涉及人群计数技术领域，具体涉及一种基于多方位音频辅助的人群计数方法。

背景技术

现有的辅助方法主要是采用单段音频对密集人群计数方法进行辅助，在面对透视失真问题和低照度场景时，人群计数精度较差；此外，现有的音频辅助方法仅使用单段音频数据，无法提供空间内各个方向的声音空间特征信息。

为了解决面对透视失真问题和低照度场景时，人群计数精度较差以及现有的音频辅助方法仅使用局部音频数据，无法提供空间内各个方向的声音空间特征信息等问题，本专利提出了一种新的视频音频辅助人群计数网络框架。

发明内容

本发明的目的是提供一种基于多方位音频辅助的人群计数方法，以解决背景技术中不足。

为了实现上述目的，本发明提供如下技术方案：一种基于多方位音频辅助的人群计数方法，所述计数方法包括以下步骤：

S1：VCC模块结合多种尺寸卷积核的空洞卷积，从图像中提取人群特征；

S2：通过自适应将多级上下文信息编码到VCC模块产生的特征中，提取视觉特征；

S3：ACC模块对原始的多段多方向音频进行初步融合和特征提取；

S4：将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合，再进行单个卷积操作生成密度图。