[发明专利]基于Kinect的感兴趣区域检测方法在审

专利信息
申请号: 201410166147.8 申请日: 2014-04-24
公开(公告)号: CN103971116A 公开(公告)日: 2014-08-06
发明(设计)人: 彭先霖;夏召强;冯晓毅;彭进业;王珺;毛晓菲;崔明辉;胡旭涛 申请(专利权)人: 西北工业大学;西安云望电子科技有限公司
主分类号: G06K9/60 分类号: G06K9/60
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于Kinect的感兴趣区域检测方法,用于解决现有基于改进显著图模型的感兴趣区域检测方法准确度差的技术问题。技术方案是利用Kinect3D摄像头获取二维RGB图像和深度信息;在此基础上,利用RGB图像提取多种视觉特征并构建多尺度视觉特征图;然后,将特征图与深度图进行融合生成显著图,并利用胜者全取策略生成二值显著图;最后,对二值显著图进行膨胀处理,检测出最终的感兴趣区域。本发明利用Kinect摄像头生成的RGB-D格式的3D图像即可检测出与人眼感知结果一致的感兴趣区域。在相同条件下利用本发明方法自动检测出感兴趣区域的吻合率由背景技术的82.5%提高到91.2%,提高了8.7%。
搜索关键词: 基于 kinect 感兴趣 区域 检测 方法
【主权项】:
一种基于Kinect的感兴趣区域检测方法,其特征在于包括以下步骤:步骤一、利用Kinect3D摄像头和微软提供的应用程序接口,获取RGB‑D格式的3D图像;步骤二、多尺度特征图的计算;包括多尺度图像的生成、灰度特征图的提取、颜色特征图的提取、方向特征图的提取和边缘特征图的提取;多尺度图像的生成:对二维RGB图像中的R、G和B三个通道,在水平方向与垂直方向上分别进行隔行采样,依此形成多尺度R通道图MR(σ)、多尺度G通道图MG(σ)和多尺度B通道图MB(σ),σ为尺度水平;灰度特征图提取:由某尺度上图像的三个颜色通道的平均值来表征图像在该尺度的灰度特征图:<mrow><msub><mi>F</mi><mi>i</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>M</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>M</mi><mi>G</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>+</mo><msub><mi>M</mi><mi>B</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow></mrow><mn>3</mn></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></mrow>颜色特征图提取:在某个尺度图像上的颜色特征采用红绿颜色变化值(RG)和蓝黄颜色变化(BY)度量:<mfenced open='' close=''><mtable><mtr><mtd><msub><mi>F</mi><mi>cRG</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>M</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>-</mo><msub><mi>M</mi><mi>G</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msub><mi>M</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>M</mi><mi>G</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>M</mi><mi>B</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mtd></mtr><mtr><mtd><msub><mi>F</mi><mi>cBY</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><msub><mi>M</mi><mi>B</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>-</mo><mi>min</mi><mrow><mo>(</mo><msub><mi>M</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>M</mi><mi>G</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msub><mi>M</mi><mi>B</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>M</mi><mi>R</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>,</mo><msub><mi>M</mi><mi>G</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>其中,max算子表示图像三个通道中的最大值,min算子表示图像三个通道中的最小值;方向特征图提取:对某个尺度上的灰度特征图进行Gabor滤波,在此基础上得到该尺度图像在不同方向上的纹理:<mfenced open='' close=''><mtable><mtr><mtd><msub><mi>F</mi><mi>dr</mi></msub><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>=</mo><mo>|</mo><mo>|</mo><mi>I</mi><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>*</mo><msub><mi>G</mi><mn>0</mn></msub><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mo>+</mo><mo>|</mo><mo>|</mo><mi>I</mi><mrow><mo>(</mo><mi>&sigma;</mi><mo>)</mo></mrow><mo>*</mo><msub><mi>G</mi><mrow><mi>&pi;</mi><mo>/</mo><mn>2</mn></mrow></msub><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mo>,</mo></mtd></mtr><mtr><mtd><msub><mi>G</mi><mi>&psi;</mi></msub><mrow><mo>(</mo><mi>x</mi><mo>,</mo><mi>y</mi><mo>,</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>=</mo><mi>exp</mi><mrow><mo>(</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mrow><mo>&prime;</mo><mn>2</mn></mrow></msup><mo>+</mo><msup><mi>&gamma;</mi><mn>2</mn></msup><msup><mi>y</mi><mrow><mo>&prime;</mo><mn>2</mn></mrow></msup></mrow><mrow><mn>2</mn><msup><mi>&sigma;</mi><mn>2</mn></msup></mrow></mfrac><mo>)</mo></mrow><mi>cos</mi><mrow><mo>(</mo><mn>2</mn><mi>&pi;</mi><mfrac><msup><mi>x</mi><mo>&prime;</mo></msup><mi>&lambda;</mi></mfrac><mo>+</mo><mi>&psi;</mi><mo>)</mo></mrow></mtd></mtr><mtr><mtd><msup><mi>x</mi><mo>&prime;</mo></msup><mo>=</mo><mi>x</mi><mi>cos</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>+</mo><mi>y</mi><mi>sin</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>,</mo><msup><mi>y</mi><mo>&prime;</mo></msup><mo>=</mo><mo>-</mo><mi>x</mi><mi>sin</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>+</mo><mi>y</mi><mi>cos</mi><mrow><mo>(</mo><mi>&theta;</mi><mo>)</mo></mrow><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>3</mn><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>其中,“*”表示卷积运算,G(θ)为Gabor算子,(x,y)表示图像像素的空间坐标,θ表示不同滤波方向的参数,ψ为相位,γ为适应比率,λ为波长;边缘特征提取:对某个尺度上的灰度特征图,用DOG算子检测梯度方向上的变化,以此表示该尺度上的边缘特征图:Feg(σ)=I(σ)*DOG(v1,v2)<mrow><mi>DOG</mi><mrow><mo>(</mo><msub><mi>v</mi><mn>1</mn></msub><mo>,</mo><msub><mi>v</mi><mn>2</mn></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>&pi;</mi><msub><mi>v</mi><mn>1</mn></msub></msqrt></mfrac><mi>exp</mi><mo>[</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msup><msub><mi>v</mi><mn>1</mn></msub><mn>2</mn></msup></mrow></mfrac><mo>]</mo><mo>-</mo><mfrac><mn>1</mn><msqrt><mn>2</mn><mi>&pi;</mi><msub><mi>v</mi><mn>2</mn></msub></msqrt></mfrac><mi>exp</mi><mo>[</mo><mo>-</mo><mfrac><mrow><msup><mi>x</mi><mn>2</mn></msup><mo>+</mo><msup><mi>y</mi><mn>2</mn></msup></mrow><mrow><mn>2</mn><msup><msub><mi>v</mi><mn>2</mn></msub><mn>2</mn></msup></mrow></mfrac><mo>]</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>其中,v1、v2是决定DOG响应曲线坡度的方差,取值越小,则波形变化越剧烈;步骤三、将不同的视觉特征进行归一化并生成二维特征图,然后将视觉特征图与深度图进行融合得到显著图;视觉特征归一化:在融合特征图与深度图之前,将各个特征归一化到范围(a,b):<mrow><msub><mi>F</mi><mi>t</mi></msub><mo>&LeftArrow;</mo><mfrac><mrow><msub><mi>F</mi><mi>t</mi></msub><mo>-</mo><mi>min</mi><mrow><mo>(</mo><msub><mi>F</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow><mrow><mi>max</mi><mrow><mo>(</mo><msub><mi>F</mi><mi>t</mi></msub><mo>)</mo></mrow></mrow></mfrac><mo>&times;</mo><mrow><mo>(</mo><mi>b</mi><mo>-</mo><mi>a</mi><mo>)</mo></mrow><mo>+</mo><mi>a</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>其中,符号“←”表示替换运算;二维视觉特征图的生成:<mrow><msub><mi>U</mi><mi>t</mi></msub><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>c</mi><mn>1</mn><mo>=</mo><mn>3</mn></mrow><mn>5</mn></munderover><munderover><mi>&Sigma;</mi><mrow><mi>c</mi><mn>2</mn><mo>=</mo><mi>c</mi><mn>1</mn><mo>+</mo><mn>3</mn></mrow><mrow><mi>c</mi><mn>1</mn><mo>+</mo><mn>4</mn></mrow></munderover><mo>|</mo><msub><mi>F</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>c</mi><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msub><mi>F</mi><mi>t</mi></msub><mrow><mo>(</mo><mi>c</mi><mn>2</mn><mo>)</mo></mrow><mo>|</mo><mo>,</mo><msub><mi>F</mi><mi>t</mi></msub><mo>&Element;</mo><mo>{</mo><msub><mi>F</mi><mi>i</mi></msub><mo>,</mo><msub><mi>F</mi><mi>cRG</mi></msub><mo>,</mo><msub><mi>F</mi><mi>cBY</mi></msub><mo>,</mo><msub><mi>F</mi><mi>dr</mi></msub><mo>,</mo><msub><mi>F</mi><mi>eg</mi></msub><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>6</mn><mo>)</mo></mrow></mrow>其中,c1为精细尺度,c2为粗糙尺度;不同的Ut表示灰度、颜色、方向与边缘特征在不同尺度上的差异;深度图的生成:通过Kinect得到的深度信息是空间各点到摄像头所在平面的距离,物理单位为毫米,采用如下方式进行归一化得深度图:D(x,y)=Dk(x,y)×255/4095      (7)其中,Dk是从Kinect获取的深度信息;显著图由二维视觉特征图Ut与深度图D采用线性相加的方式融合得到:<mrow><mi>S</mi><mo>=</mo><munderover><mi>&Sigma;</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><msub><mi>&alpha;</mi><mi>t</mi></msub><msub><mi>U</mi><mi>t</mi></msub><mo>+</mo><mi>&beta;</mi><mo>&CenterDot;</mo><mfrac><mi>D</mi><mrow><mi>max</mi><mrow><mo>(</mo><mi>D</mi><mo>)</mo></mrow></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>其中,T为特征差异图的个数,αt和β是权重因子,S为融合生成的显著图;步骤四、首先在显著图S中找到全局最大值的空间位置(xm,ym),并利用胜者全取策略得到初步的感兴趣区域:其中,τ是阈值,取值在[0,1]之间;为了防止同一前景目标被分为多个较小的感兴趣区域,对上述感兴趣区域作膨胀运算:Βd(x,y)=Β(x,y)⊕Bdil,Bdil为结构元素      (10)其中,“⊕”表示图像形态学运算中的膨胀运算;在Bd(x,y)中取值为1的区域为最终的感兴趣区域。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西安云望电子科技有限公司,未经西北工业大学;西安云望电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410166147.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top