[发明专利]一种视频人群计数系统及方法在审

申请号：	202010555547.3	申请日：	2020-06-17
公开（公告）号：	CN111860162A	公开（公告）日：	2020-10-30
发明（设计）人：	吴祺尧;张重阳	申请（专利权）人：	上海交通大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04
代理公司：	上海恒慧知识产权代理事务所(特殊普通合伙) 31317	代理人：	刘翠
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频人群计数系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种视频人群计数系统，其特征在于，包括：

前端编码器，所述前端编码器对给定视频序列中的一帧图像进行特征提取，其中，所提取的特征包括浅层结构特征和深层语义特征；

共同监督模块，所述共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰，得到视频序列帧间相关特征，其中所述视视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征；

空间注意力模块，所述空间注意力模块利用浅层结构特征，选择注意力区域，引导系统区分前景人群和背景干扰，得到单帧空间特征；

多尺度自我监督模块，所述多尺度自我监督模块利用深层语义特征，通过多分支结构提取图像中人群的不同尺度特征，并通过自注意力机制对上下文特征信息进行自适应整合，自主选取最合适的尺度分支特征，得到单帧尺度特征；

后端解码器，所述后端解码器将共同监督模块、空间注意力模块和多尺度自我监督模块提取的视频序列帧间相关特征、单帧空间特征和单帧尺度特征融合并输出预测人群密度图，进而计算出待测视频帧中所含人数。

2.根据权利要求1所述的视频人群计数系统，其特征在于，所述前端编码器，包括两路特征提取网络，分别用于提取视频序列中当前待测帧及前续帧的视觉特征；其中每一路特征提取网络均包括一个深度卷积神经网络DCNN，所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层，两个深度卷积神经网络DCNN之间参数共享；输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征，经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。

3.根据权利要求1所述的视频人群计数系统，其特征在于，所述共同监督模块利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征，并利用当前测试帧作为全局基础进行特征提取与融合，得到视频序列帧间相关特征；利用门函数机制，通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰；其中：

所述对称监督机制包括：

通过前端编码器得到前续帧与待测帧各自的深层语义特征来计算关联矩阵A：

W＝P^-1DP

其中，F_a为目标帧的图像特征，F_b为查询帧的图像特征，其中目标帧定义为当前待测图片，查询帧则为视频序列基于当前待测帧的前续帧；为权重矩阵；将F_a与F_b转换为二维矩阵表示形式，维度大小为C×(WH)，P为可逆矩阵，D为对角矩阵；

限制权重矩阵W为对称矩阵，则投影矩阵为正交矩阵，满足P^TP＝I，其中I为单位矩阵，维度大小为(C，C)；对称共同监督由公式导出：

其中，将特征F_a与F_b投影至正交空间并且保证F_a与F_b在新空间中的范数保持不变，进而消除不同通道之间的相关性，改善系统的普适性；

所述门函数用于生成置信度矩阵；其中，门函数f_g如下所示：

f_g(F_a)＝σ(w_fF_a+b_f)∈[0，1]^WH，f_g(F_b)＝σ(w_fF_b+b_f)∈[0，1]^WH，