[发明专利]一种基于多方位音频辅助的人群计数方法在审
申请号: | 202310512640.X | 申请日: | 2023-05-09 |
公开(公告)号: | CN116630881A | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 闵卫东;邹怡;赵浩宇;汪琦 | 申请(专利权)人: | 南昌大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G10L25/03;G10L21/0208;G06V10/80;G06V10/82 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 王焕巧 |
地址: | 330000 江西省*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多方位 音频 辅助 人群 计数 方法 | ||
本发明公开了一种基于多方位音频辅助的人群计数方法,所述计数方法包括以下步骤:VCC模块结合多种尺寸卷积核的空洞卷积,从图像中提取人群特征;通过自适应将多级上下文信息编码到VCC模块产生的特征中,提取视觉特征;ACC模块对原始的多段多方向音频进行初步融合和特征提取;将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合,再进行单个卷积操作生成密度图。本发明提出的框架,解决了透视问题、低照度场景以及不同位置对音频特征提取的影响,同时这是人群计数领域第一次尝试使用多段多方向音频辅助人群计数。
技术领域
本发明涉及人群计数技术领域,具体涉及一种基于多方位音频辅助的人群计数方法。
背景技术
现有的辅助方法主要是采用单段音频对密集人群计数方法进行辅助,在面对透视失真问题和低照度场景时,人群计数精度较差;此外,现有的音频辅助方法仅使用单段音频数据,无法提供空间内各个方向的声音空间特征信息。
为了解决面对透视失真问题和低照度场景时,人群计数精度较差以及现有的音频辅助方法仅使用局部音频数据,无法提供空间内各个方向的声音空间特征信息等问题,本专利提出了一种新的视频音频辅助人群计数网络框架。
发明内容
本发明的目的是提供一种基于多方位音频辅助的人群计数方法,以解决背景技术中不足。
为了实现上述目的,本发明提供如下技术方案:一种基于多方位音频辅助的人群计数方法,所述计数方法包括以下步骤:
S1:VCC模块结合多种尺寸卷积核的空洞卷积,从图像中提取人群特征;
S2:通过自适应将多级上下文信息编码到VCC模块产生的特征中,提取视觉特征;
S3:ACC模块对原始的多段多方向音频进行初步融合和特征提取;
S4:将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合,再进行单个卷积操作生成密度图。
优选的,步骤S1还包括以下步骤:
S1.1:将初始图像送入VGG16网络的前10个卷积层中,:创建初始特征图;
S1.2:特征图包含初始图像的详细信息。
优选的,所述VCC模块通过三通道编码方法对初始特征图进行编码,每个通道执行不同程度的卷积运算,获得具有不同抽象程度的图像特征,三通道编码包括通道1、通道2、通道3:
通道1包含卷积核为128×128的卷积运算、最大池化操作和平均池化操作;
通道2包含两个核为256×256和128×128的卷积运算,最大池化操作和平均池化操作;
通道3包含两个核为512×512和256×256的卷积运算,最大池化操作和平均池化操作。
优选的,所述VCC模块通过上下文感知特征生成方法对生成的图像特征执行二次操作包括以下步骤:
S1.3:对初始图像特征进行平均池化;
S1.4:使用不同扩张率的空洞卷积进行运算;
S1.5:对初始图像特征进行上采样,处理为原始特征尺寸,形成通道感知特征。
优选的,所述上下文感知特征生成方法基于多通道方法对图像特征进行增强,图像I被发送到预先训练的VGG网络的前十层中,分别进行第二次卷积运算,为公式(1)所示:
ψ(·)代表池化操作,φd=i(·)代表卷积运算,d表示扩张率,是卷积核中的超参数,当i设为1时,表示传统的卷积运算,当i2时,运算是间隔为i的扩张卷积运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南昌大学,未经南昌大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310512640.X/2.html,转载请声明来源钻瓜专利网。