[发明专利]一种基于距离正则化投影和字典学习的行人重识别方法有效

申请号：	201810839809.1	申请日：	2018-07-27
公开（公告）号：	CN109284668B	公开（公告）日：	2021-06-18
发明（设计）人：	李华锋;董能;文永华;竹晋廷;线岩团;王红斌	申请（专利权）人：	昆明理工大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06T5/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	650093 云***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于距离正则化投影和字典学习的行人重识别方法，属于智能监控技术领域，本发明提出了一种新颖的字典学习框架以学习用于行人重识别中的判别和鲁棒性表示，判别字典和投影矩阵联合学习，通过学习投影矩阵，人物特征的编码系数被映射到低维子空间，从而有效地缓解非重叠视图中的行人差异。为了提高学习字典的判别能力，并且解决视觉模糊和外观变化的问题，引入顶端距离正则化在字典学习框架中以提炼出编码系数的解空间，提高了表示特征的能力，解决了度量学习中受到的限制问题，本发明引入了投影矩阵和顶端距离正则化项，在一定程度上缓解了非重叠视图中的行人差异，在行人重识别任务中取得较好的效果。
搜索关键词：	一种基于距离正则投影字典学习行人识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于距离正则化投影和字典学习的行人重识别算法，其特征在于，具体步骤如下：(1)从一个以上的摄像机中选取任意两个a，b摄像机，并从a，b摄像机的视频中分别选出同一行人的图像，且同一行人只选一张图像，设从a，b两个摄像机下分别选出M张行人图像，且a，b摄像机下选出的M张行人图像一一对应，然后从M张行人图像中抽取N张行人图像作为训练集，其余图像作为测试集，并分别提取选出的N张行人图像的特征向量，定义Xa＝[xa1，xa2，…xaN]，Xb＝[xb1，xb2，…xbN]分别表示a，b两个摄像机下N张行人图像特征向量的集合，其中xa1，xa2，…xaN分别表示a摄像机下每张行人图像的特征向量，xb1，xb2，…xbN分别表示b摄像机下每张行人图像的特征向量，定义用于表示行人外观的、具有稀疏性的学习字典D，D∈Rp×m，D＝[d1，d2，…dm]，其中，p表示字典D的维度，m表示字典D的原子个数，d1，d2，…dm分别表示字典D的原子，di表示字典D的某个原子，且i＝1，2，，，m，设字典D关于a，b两个摄像机视图下选出的行人图像的编码系数集合分别为Za，Zb，则Za＝[za1，za2，…zaN]，Zb＝[zb1，zb2，…zbN]，其中，za1，za2，…zaN分别表示a摄像机视图下选出的每张行人图像特征向量的编码系数，zb1，zb2，…zbN分别表示b摄像机视图下选出的每张行人图像特征向量的编码系数，建立如下最小化目标函数公式(1)：其中，λ₁是一个标量超参数，约束条件为即字典D的每个原子的l₂范数的平方小于等于1，||·||_F为F范数运算符，||·||₂为l₂范数运算符，||·||₁为l₁范数运算符，为F范数的平方运算符；(2)通过公式(2)对a，b两个摄像机视图下选出的行人图像的编码系数进行约束，使两个摄像机视图下选出的行人图像的编码系数相同：其中λ2为标量超参数；(3)引入投影学习将编码系数映射到一个低维空间，使不同摄像机视图下同一行人图像之间的距离最小化，令P∈Rm×q(q＜m)表示映射矩阵，q表示映射矩阵P的维度，m为原子个数，则有如下公式(3)：其中，tr(PTP)表示矩阵的迹，λ3为超参数；(4)对矩阵P提出判别正则化项，具体形式为如下公式(4)：其中R(P)表示P的正则化项，L表示损失函数，即判别两个视图下行人图像是否为同一行人的误差，yij的取值为1或‑1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像为同一行人时，则yij的取值为1，若a摄像机视图下第i张行人图像与b摄像机视图下第j张行人图像不是同一行人时，则yij的取值为‑1，zai表示a摄像机视图下第i张行人图像的编码系数，zbj表示b摄像机视图下第j张行人图像的编码系数，f表示损失函数的映射关系，f如公式(5)所示：其中，ξ为超参数，也称为全局决策阈值，设输入a摄像机视图下的某张图像的编码系数z_ai，则b摄像机视图下的对应的同一行人图像的编码系数为z_bj，若输入编码系数z_ai时，得到的是即不是同一行人的图像，则表示出现了损失，f满足如下公式(6)，出现损失时，损失函数如公式(7)所示：L＝ln(1+exp(‑yij*×f(zai，zbj，zbj*，P))) (7)其中，yij*＝‑1；(5)将步骤(4)的矩阵P的判别正则化项和损失函数引入字典学习模型中，得到最终的字典学习模型如下公式(8)所示：其中，β为超参数；(6)字典学习模型的简化，将步骤(5)的字典学习模型进行简化，去除对编码系数Za和Zb的正则化项，即去除λ1||Za||1+λ1||Zb||1项，得到如下简化后的模型公式(9)：(7)对步骤(6)的公式(9)进行求解，首先更新编码系数zai，此时固定P，D，zbj，得到如下式子(10)：采用梯度下降对编码系数zai进行更新，得到如下式子(11)：其中，σ表示预先指定的步长，k表示第k次迭代，z＝yij*×f(zai，zbj，zbj*，P)；同理，zbj通过以下式子(12)进行更新：然后更新映射矩阵P，固定zai、zbj和D，更新公式如下(13)所示：令Γ(P)表示上式的目标方程，则：令有故Γ(P)表示为如下公式(15)：P的梯度Γ(P)的计算如下式(16)所示：故P的更新式子如下(17)所示：其中，τ表示一个预先确定的常数，τ＝1，l表示第l次迭代；然后，更新字典D，通过如下公式(18)对字典D进行更新：其中，表示更新后的字典；(8)为了优化公式(18)，引入一个辅助变量B＝[b₁，b₂，…b_m]，并且初始时令B＝D，然后通过ADMM算法对公式(18)进行更新迭代，迭代公式如公式(19)所示，分别得到更新后的和并计算和之间的对偶差值T，当T^t+1‑T^t的值小于0.001时，停止迭代，此时更新的字典为最优解；其中，η是学习率，t表示第t次迭代；(9)得到最优字典的模型后，将测试集中的行人图像的特征输入模型中，进行行人重识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于昆明理工大学，未经昆明理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810839809.1/，转载请声明来源钻瓜专利网。

上一篇：一种面向视频的三流式人体运动行为空间域检测方法
下一篇：一种基于多尺度注意力机制的行人检测方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于距离正则化投影和字典学习的行人重识别方法有效

专利文献下载