[发明专利]一种针对图像的密集人群的计数方法及系统有效
申请号: | 202110057271.0 | 申请日: | 2021-01-15 |
公开(公告)号: | CN112699848B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 张重阳;徐玲 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V20/52 | 分类号: | G06V20/52;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/80 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 徐红银 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 图像 密集 人群 计数 方法 系统 | ||
本发明公开了一种针对图像的密集人群的计数方法及系统,该方法包括:对给定的输入图像进行第一路特征提取,分多个支路、每个支路分别对特征进行双向加权融合;再将双向加权后的特征进行特征合并,得到融合特征;最后将融合特征进行解码,得到每个支路估计的密度图输出;第二路特征提取,利用提取的特征生成一组权重系数;将第一路输出的多个密度图与第二路生成的权重系数分别相乘后再相加,得到最终的输出密度图。该系统包括:第一路特征提取模块;多个支路的特征加权模块、特征合并模块、后端解码器模块;第二路特征提取模块、权值生成模块;密度图加权融合模块。通过本发明,可以实现针对不同场景下图像的人群计数,提升算法的鲁棒性和迁移性。
技术领域
本发明涉及密集人数计数技术领域,特别涉及一种针对图像的密集人群的计数方法及系统。
背景技术
密集人群计数问题,是利用计算机视觉技术确定图像或者视频序列中的人群总数的问题,在社会公共安全和学术研究等方面都有着重要的意义。
随着深度学习在计算机视觉领域的迅猛发展,该技术也被引入了密集人群计数问题中。Zhang等设计了用不同感受野大小设计多路分支网络MCNN,多分支学习到的不同尺度特征来提升人群估计的性能。Switch CNN在MCNN的基础上设计三个不同感受野大小的独立回归网络,在三路回归网络前引入一个CNN分类器来判断图像块属于哪一路分支,将输入图像的每一图像块选择到合适的网络分支中,使得网络能够学习到多尺度特征。2018年,Cheng等人也在MCNN的基础上引入了多列互学习的策略,估计列之间的相互信息,通过使相互信息最小化,使得多列结构中每一列网络能够学习到图像的不同特征。因此,多分支的网络结构常在人群计数问题中得到使用。
由于摄像机视角的变化以及算法缺乏鲁棒性,对于不同的场景行人展现出来的特征大相径庭,大多数方法在多变的场景下都无法获得稳定的性能。在场景适应性方面的研究,Zhang等提出了使用深度学习来完成跨场景人群计数,即在多个场景训练,在没有训练过的场景测试。为了将模型应用到未见过的场景中,给定一个新的测试场景时需从训练过的场景集中找到具有相似属性的场景,将其加到训练样本中对模型进行微调。场景的视角和尺度是影响人群外观的主要因素,可以利用透视图直接表示尺度和比例尺。非参数微调方法第一步是从所有训练场景中检索与目标场景具有相似透视图的训练场景,称为候选场景,第二步是从候选场景中选出和测试场景有相似人群密度分布的图像块,最后利用这些选出的图像块进行微调,实现跨场景人群计数。该方案需要进行场景检索,比较依赖数据集。在工作OSSS中,作者提出构建一个可以快速适应当前测试场景的预训练模型。在训练期间假设已经学习了从不同场景中收集的标记图像,每个场景对应于固定位置和角度的摄像机。给定一个目标场景,假设从该目标场景中收集了一个单一的标记图像,目的就是利用该单个样本使得人群计数模型适应该特定场景。由于现实场景中无法获得足够量的先验样本数据,所以希望所采取的训练方式可以有少样本少迭代的特点。在此基础上,工作FSSA引入了元学习方法来实现。在元学习的训练部分,选取一部分以摄像头位置为区分场景的样本集合(比如一个场景下一个特定摄像头所记录的场景就可以被认为是一类与众不同的场景)作为训练样本。在测试过程中有新的目标场景,要使得模型适应该新场景。在测试场景中选取一个极小数量的被标注的样本对模型进行一次或者极少数次的训练迭代,目的是为了是模型在测试场景中使用尽量少的标注数据以及尽量少的梯度下降步骤来提取新场景的人群密度特征,达到快速场景适应的效果。
综上所述,现有的密集人群计数方法对于场景适应性和鲁棒性问题上存在着一定的局限,很难快速适应新的人群场景。由于现实应用场景比较复杂,怎样使得目前的密集人群计数方法可以更广泛地应用于多种场景是一个值得研究的问题。
发明内容
本发明针对上述现有技术中存在的问题,提出一种针对图像的密集人群的计数方法及系统,通过结合密度回归以及全局特征的权值编码,实现针对不同场景下图像的人群计数,提升算法的鲁棒性和推广能力。
为解决上述技术问题,本发明是通过如下技术方案实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110057271.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序