[发明专利]一种基于多方位音频辅助的人群计数方法在审

申请号：	202310512640.X	申请日：	2023-05-09
公开（公告）号：	CN116630881A	公开（公告）日：	2023-08-22
发明（设计）人：	闵卫东;邹怡;赵浩宇;汪琦	申请（专利权）人：	南昌大学
主分类号：	G06V20/52	分类号：	G06V20/52;G10L25/03;G10L21/0208;G06V10/80;G06V10/82
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	王焕巧
地址：	330000 江西省***	国省代码：	江西;36
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于多方位音频辅助人群计数方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多方位音频辅助的人群计数方法，其特征在于：所述计数方法包括以下步骤：

S1：VCC模块结合多种尺寸卷积核的空洞卷积，从图像中提取人群特征；

S2：通过自适应将多级上下文信息编码到VCC模块产生的特征中，提取视觉特征；

S3：ACC模块对原始的多段多方向音频进行初步融合和特征提取；

S4：将VCC模块的多通道视觉特征和ACC模块的多方向音频特征融合，再进行单个卷积操作生成密度图。

2.根据权利要求1所述的一种基于多方位音频辅助的人群计数方法，其特征在于：步骤S1还包括以下步骤：

S1.1：将初始图像送入VGG16网络的前10个卷积层中，:创建初始特征图；

S1.2：特征图包含初始图像的详细信息。

3.根据权利要求2所述的一种基于多方位音频辅助的人群计数方法，其特征在于：所述VCC模块通过三通道编码方法对初始特征图进行编码，每个通道执行不同程度的卷积运算，获得具有不同抽象程度的图像特征，三通道编码包括通道1、通道2、通道3：

通道1包含卷积核为128×128的卷积运算、最大池化操作和平均池化操作；

通道2包含两个核为256×256和128×128的卷积运算，最大池化操作和平均池化操作；

通道3包含两个核为512×512和256×256的卷积运算，最大池化操作和平均池化操作。

4.根据权利要求3所述的一种基于多方位音频辅助的人群计数方法，其特征在于：所述VCC模块通过上下文感知特征生成方法对生成的图像特征执行二次操作包括以下步骤：

S1.3：对初始图像特征进行平均池化；

S1.4：使用不同扩张率的空洞卷积进行运算；

S1.5：对初始图像特征进行上采样，处理为原始特征尺寸，形成通道感知特征。

5.根据权利要求4所述的一种基于多方位音频辅助的人群计数方法，其特征在于：所述上下文感知特征生成方法基于多通道方法对图像特征进行增强，图像I被发送到预先训练的VGG网络的前十层中，分别进行第二次卷积运算，为公式(1)所示：

ψ(·)代表池化操作，φ_d＝i(·)代表卷积运算，d表示扩张率，是卷积核中的超参数，当i设为1时，表示传统的卷积运算，当i2时，运算是间隔为i的扩张卷积运算。

6.根据权利要求5所述的一种基于多方位音频辅助的人群计数方法，其特征在于：所述上下文感知特征生成方法中，对于特征信息为i×i，且i为256或512的特征，执行扩张率为2的空洞卷积运算，最大池化操作用于降低上层的计算复杂度，执行平均池化以保留图像的更多上下文感知信息，过程为公式(2)所示：

f_FEMC＝Avg(φ_d＝3(ψ_max(φ_d＝2(f_i×i)))) (2)

浅层特征f_FEMC被传送到下一层进行进一步卷积以获得更抽象的特征，将不同通道之间的特征连接起来，生成初步特征f_θ，将所有操作后获得的特征信息进行连接，执行一次卷积运算以保留浅层特征信息，原始特征被传输到下一层进行进一步卷积。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南昌大学，未经南昌大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310512640.X/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载