[发明专利]一种融合SLIC算法的KCF长期手势跟踪方法有效
申请号: | 201910184848.7 | 申请日: | 2019-03-12 |
公开(公告)号: | CN110008844B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 郭锦辉;刘伟东 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/50;G06V10/56;G06V10/772;G06V10/764 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;黄海波 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 slic 算法 kcf 长期 手势 跟踪 方法 | ||
1.一种融合SLIC算法的KCF长期手势跟踪方法,其特征在于,包括步骤:
1)构建手势训练数据集,通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型,得到手势检测的粗分类模型;
2)从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,通过结合FHOG特征和CN特征设计KNN算法的相似度函数,从而完成手势检测的细分类;
3)通过所述手势检测的粗分类模型和手势检测的细分类得到手势检测模型,使用手势检测模型检测目标,得到目标手势的检测框;使用目标手势的检测框初始化KCF滤波器,然后使用KCF滤波器估计下一帧的目标手势,所述KCF滤波器采用FHOG特征和CN特征作为输入;
4)使用设计好的目标尺度估计器,估计最适的目标手势的矩形框,目标尺度估计器采用FHOG特征和CN特征作为输入;
5)结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数,通过比较当前帧和上一帧跟踪的结果的相似度来确定当前跟踪结果是否可信,若置信度大于阈值,则采用当前跟踪结果,识别下一帧,重复步骤3)至步骤5);若置信度小于阈值,则放弃当前跟踪结果,使用手势检测模型检测当前帧,将检测结果作为当前跟踪结果,并重新初始化KCF跟踪器,重复步骤3)至步骤5),最后使用当前帧识别结果,更新所述前景-背景词典;
在步骤1)中,所述通过SLIC算法提取图片的超像素块,离线训练超像素块的SVM模型具体包括:
步骤1.1)通过SLIC算法得到待检测图片的超像素块,假设当前待测图片为第t帧,s(r,t)为第t帧的第r个超像素,Tt={Xt,Yt,Wt,Ht}为第t帧图像中的手势目标框,{Xt,Yt}为手势目标中心,{Wt,Ht}为手势目标的长宽;将与目标框重合的超像素标记为前景,其余情况标记背景;第r个超像素的标签可以表示为:
步骤1.2)在得到超像素后,并根据所述超像素的标签,提取每个超像素块的HOG特征N_VecHs(r,t)和颜色统计特征N_VecCs(r,t);
因不同超像素块的像素点的数量可能不同,假设第帧帧第r个超像素块s(r,t)的像素点数量为nums(r,t),取HOG特征的统计量bin为18,将一个超像素块视为一个单元cell,计算cell内各个像素的梯度:
其中,Gx为水平方向的梯度,而Gy为垂直方向的梯度,G(x,y)为cell的梯度,为其相角;
统计cell内像素的梯度落在各个bin中的数量,那么一个超像素块得到的HOG特征为18维的向量VecHs(r,t),对HOG特征做如下归一化处理:
N_VecHs(r,t)=VecHs(r,t)/||VecHs(r,t)||/nums(r,t);
提取HOG特征前,使用gamma算法将图像进行光校正,并将图像灰度化;
对于颜色统计特征,保持图像为RGB模式,RGB图像的r、g、b分量按规律划分为64份,在图像中r、g、b的取值均为(0,255),因而:
其中,为向下取整,而rdiv、gdiv和bdiv分别为r、g、b分量分块取值;
建立统计数组count[64],对r、g、b划分的64份的区间进行统计,对应索引为:
通过统计颜色数量,得到一个64维的向量VecCs(r,t),对其进行如下归一化处理:
N_VecCs(r,t)=VecCs(r,t)/||VecCs(r,t)||/nums(r,t);
步骤1.3)将HOG特征和颜色统计特征串联得到最后的特征:
Vecs(r,t)=[N_VecHs(r,t),N_VecCs(r,t)];
步骤1.4)将所述超像素最后的特征和标签组成svm分类器的训练样本集dataSet={Vecs(r,t),l(r,t)},将所述样本集送入svm分类器,训练得到svm分类器的参数模型;
所述步骤2)的具体过程如下:
步骤2.1)从手势训练数据集中提取各种手势图片的前景和背景,构建前景-背景词典,构建的前景-背景词典中前景数据量和背景数据量相等,只将类别分成前景和背景两类,将待测样本与两类数据计算距离,KNN算法的距离函数采用欧式距离:
公式中:xt为当前x特征向量的第t维度特征,yt为y特征向量的第t维度特征,n为特征向量的总维度;
步骤2.2)将待测样本与前景和背景两类距离按递增关系进行排序;
步骤2.3)选取距离最小的K个点,即前景-背景词典中最接近待测样本的K个元素;
步骤2.4)确定前K个元素所在类别的出现频率;
步骤2.5)返回前K个点中出现频率最高的类别作为待测样本的预测分类;
所述步骤4)具体过程如下:
目标尺度估计器采用一维的KCF滤波器,是求解下面的最优滤波器的过程:
其中,l∈{1,2,...,d}为在前一帧图片的手势目标中心附近按照不同的尺度提取d种的图像块的标记,g为根据每个图像块距离目标中心位置的远近赋予的一个高斯响应函数,h为设计的尺度估计器,f为对应的图像特征,λ为一惩罚因子;设h和f的频率响应为H和G,则上面可以求解得到尺度估计器为:
其中,F为图像特征f的频率响应,而为其共轭,H为尺度估计器h的频率响应,而为其共轭,λ为一惩罚因子,d为提取的图像块数量,而l∈{1,2,...,d};
所述步骤5)具体过程如下:
结合感知哈希算法、FHOG特征余弦相似度和颜色统计特征余弦相似度设计的置信度函数;
步骤4.1)输入两张图片,通过感知哈希算法得到的相似度为hashSimilar,计算FHOG特征得到的余弦相似度为fhogCosSimilar,计算颜色统计特征得到的相似度为colorCosSimilar;
步骤4.2)按照一定加权计算两张图片的相似度:
similar=α1×hashSimilar+α2×fhogCosSimilar+α3×colorCosSimilar;
在步骤5)中,所述使用当前帧识别结果,更新前景-背景词典的具体过程如下:
步骤5.1)前景-背景词典存储的是手势目标和背景图片的FHOG和CN特征向量,两类的数量相等,假设前景-背景词典的数量为num_data,设定一定的数量阈值num_threshold;
步骤5.2)若num_datanum_threshold,则使用跟踪或者检测的结果从当前帧中的目标手势图片裁剪出来,重置大小为256*256,提取其FHOG和CN特征,并存入前景数据集中,相同的,使用识别结果般大小的提取框,截取目标手势外的背景图片,重置大小为256*256,并提取FHOG和CN特征,存入背景-数据集中;
步骤5.3)若num_data≥num_threshold,前景-背景词典中存储的数据是按一定序号排列的,使用随机函数,按照1/num_data的概率随机丢弃前景和背景各一条记录,然后再以步骤5.2)中num_datanum_threshold时的方式补充数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910184848.7/1.html,转载请声明来源钻瓜专利网。