[发明专利]一种视频人群计数系统及方法在审
申请号: | 202010555547.3 | 申请日: | 2020-06-17 |
公开(公告)号: | CN111860162A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 吴祺尧;张重阳 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 刘翠 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 人群 计数 系统 方法 | ||
1.一种视频人群计数系统,其特征在于,包括:
前端编码器,所述前端编码器对给定视频序列中的一帧图像进行特征提取,其中,所提取的特征包括浅层结构特征和深层语义特征;
共同监督模块,所述共同监督模块利用视频序列中前续帧与待测帧之间的相关特征抑制场景中固定背景的干扰,得到视频序列帧间相关特征,其中所述视视频序列帧间相关特征包括帧间时间相关特征以及帧间空间相关特征;
空间注意力模块,所述空间注意力模块利用浅层结构特征,选择注意力区域,引导系统区分前景人群和背景干扰,得到单帧空间特征;
多尺度自我监督模块,所述多尺度自我监督模块利用深层语义特征,通过多分支结构提取图像中人群的不同尺度特征,并通过自注意力机制对上下文特征信息进行自适应整合,自主选取最合适的尺度分支特征,得到单帧尺度特征;
后端解码器,所述后端解码器将共同监督模块、空间注意力模块和多尺度自我监督模块提取的视频序列帧间相关特征、单帧空间特征和单帧尺度特征融合并输出预测人群密度图,进而计算出待测视频帧中所含人数。
2.根据权利要求1所述的视频人群计数系统,其特征在于,所述前端编码器,包括两路特征提取网络,分别用于提取视频序列中当前待测帧及前续帧的视觉特征;其中每一路特征提取网络均包括一个深度卷积神经网络DCNN,所述深度卷积神经网络DCNN包括五个卷积块以及与卷积块级联的四组空洞率为2的二维卷积层,两个深度卷积神经网络DCNN之间参数共享;输入图像通过深度卷积神经网络DCNN的前三个卷积块所得到的特征定义为浅层结构特征,经过完整的深度卷积神经网络DCNN所提取到的特征定义为深层语义特征。
3.根据权利要求1所述的视频人群计数系统,其特征在于,所述共同监督模块利用共同监督机制中的对称监督机制计算前续帧与待测帧之间的相关特征,并利用当前测试帧作为全局基础进行特征提取与融合,得到视频序列帧间相关特征;利用门函数机制,通过加权层调节输出共同监督后的特征来抑制特征提取单元所提取特征中潜在的帧间差异、遮挡以及噪声干扰;其中:
所述对称监督机制包括:
通过前端编码器得到前续帧与待测帧各自的深层语义特征来计算关联矩阵A:
W=P-1DP
其中,Fa为目标帧的图像特征,Fb为查询帧的图像特征,其中目标帧定义为当前待测图片,查询帧则为视频序列基于当前待测帧的前续帧;为权重矩阵;将Fa与Fb转换为二维矩阵表示形式,维度大小为C×(WH),P为可逆矩阵,D为对角矩阵;
限制权重矩阵W为对称矩阵,则投影矩阵为正交矩阵,满足PTP=I,其中I为单位矩阵,维度大小为(C,C);对称共同监督由公式导出:
其中,将特征Fa与Fb投影至正交空间并且保证Fa与Fb在新空间中的范数保持不变,进而消除不同通道之间的相关性,改善系统的普适性;
所述门函数用于生成置信度矩阵;其中,门函数fg如下所示:
fg(Fa)=σ(wfFa+bf)∈[0,1]WH,fg(Fb)=σ(wfFb+bf)∈[0,1]WH,
其中,σ为logistic sigmoid激活函数,Ca和Cb分别为经过朴素共同监督或者对称共同监督输出的目标帧特征和查询帧特征;
所述门函数使用全连接层来实现,wf为门函数的权重值,bf为偏差值;通过已经计算的关联矩阵A,Ca与Cb使用下述公式得到,其中Ac=softmax(A):
将门函数的输出fg与之前得到的输出的特征C做哈达玛乘积,即得到共同监督后的特征C′:
Ca′=Ca⊙fg(Fa),Cb′=Cb⊙fg(Fb)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010555547.3/1.html,转载请声明来源钻瓜专利网。