[发明专利]一种激光笔交互方法有效

专利信息
申请号: 201510047988.1 申请日: 2015-01-30
公开(公告)号: CN104615283B 公开(公告)日: 2017-06-13
发明(设计)人: 金明录;王志华;郝育闻 申请(专利权)人: 大连理工大学
主分类号: G06F3/0354 分类号: G06F3/0354;G06F3/0487
代理公司: 大连理工大学专利中心21200 代理人: 李宝元,梅洪玉
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 激光 交互 方法
【权利要求书】:

1.一种激光笔交互方法,其特征在于,激光笔交互方法所用的激光笔交互系统包括计算机、投影仪系统、摄像头和激光笔,计算机通过VGA与投影仪连接将计算机内容投影到投影屏幕,摄像头通过USB将捕捉投影仪图像传给计算机;

该激光笔交互方法包括自适应背景切换的激光点检测方法、非线性坐标映射方法和分区域的激光点行为分析方法完成激光笔交互功能;

所述的自适应背景切换的激光点检测方法,通过在线背景字典创建与更新方法以及稀疏重构方法实时鲁棒的检测出运动激光点,步骤如下:

令摄像头采集的图像为Y,将其每一列连接在一起组成列向量y;其中,不包含激光点的图像称为背景图像,仅包含激光点的图像称为前景图像,y由背景图像和前景图像线性表示:

y=yB+yF(1)

其中y∈Rn×1、yB∈Rn×1和yF∈Rn×1分别为采集图像列向量、背景图像列向量和前景图像列向量,n是图像的像素点数,Rn×1表示n维的实数列向量;

通过训练和更新得到背景图像yB,利用摄像头采集图像y,通过式(1)得到前景图像yF,即得激光点位置;在激光笔交互过程中幻灯片换页或幻灯片动画使得背景突变,应对背景突变,将不断变化的背景组成背景字典D∈Rn×K,其中D的每一列表示一种背景,K是调节字典包含背景数量的参数,某时刻的背景图像通过背景字典D稀疏表示:

yB=Dx (2)

其中x=[0,...,0,xi,0,...0]∈RK×1为稀疏向量,在理想情况下仅有一项非零值;为了增加背景字典D对噪声的鲁棒性,利用累积平均方法对背景字典D按列创建:

其中Di为字典D的每一列,K为字典的列数,即背景的个数,α为背景更新速率;

在检测激光点前景图像时,首先求解x以决定当前的背景图像,然后通过式(2)解出yB,最后通过式(1)求出激光点前景yF;前景激光点相对于背景图像是非常稀疏的向量,仅在激光点位置处非零,yF是稀疏向量,背景的稀疏向量x也是稀疏的,根据压缩感知中稀疏重构方法得出x:

<mrow><mi>x</mi><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mi>x</mi></munder><mo>|</mo><mo>|</mo><mi>y</mi><mo>-</mo><mi>D</mi><mi>x</mi><mo>|</mo><msub><mo>|</mo><mn>0</mn></msub><mo>+</mo><mi>&lambda;</mi><mo>|</mo><mo>|</mo><mi>x</mi><mo>|</mo><msub><mo>|</mo><mn>0</mn></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>4</mn><mo>)</mo></mrow></mrow>

其中λ为调谐因子,||·||0代表l0范数,求解l0范数为非凸问题,激光点是非常稀疏的,式(4)利用下式近似得到:

<mrow><mi>x</mi><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mi>x</mi></munder><mo>|</mo><mo>|</mo><mi>y</mi><mo>-</mo><mi>D</mi><mi>x</mi><mo>|</mo><msub><mo>|</mo><mn>2</mn></msub><mo>+</mo><mi>&lambda;</mi><mo>|</mo><mo>|</mo><mi>x</mi><mo>|</mo><msub><mo>|</mo><mn>1</mn></msub><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>5</mn><mo>)</mo></mrow></mrow>

其中||·||1,||·||2分别为l1和l2范数;由式(5)、式(2)和式(1)解出激光点前景yF

在交互过程中,幻灯片换页或放映动画出现新的背景,导致解出的激光点前景yF不是稀疏解,反之则解出的yF为稀疏解;通过观测yF的稀疏性控制字典的更新,当yF非稀疏解时说明出现了新的背景,将新的背景立即加入到背景字典中,当yF是稀疏解时通过累积平均的方式更新字典来抑制噪声,公式如下:

其中k=mod(i,K)+1,mod为取模操作,Th为控制前景激光点稀疏性的参数,yi为采集到的第i帧图像;

将解出的yF转换成二维图像YF,激光点并不是单一像素点,采用坐标平均的方式得到激光点的坐标(u,v):

<mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>u</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msubsup><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>Y</mi><mrow><mi>F</mi><mi>x</mi><mi>i</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mrow><mi>v</mi><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msubsup><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msub><mi>Y</mi><mrow><mi>F</mi><mi>y</mi><mi>i</mi></mrow></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>7</mn><mo>)</mo></mrow></mrow>

其中N为YF中非零值的个数,YFxi和YFyi分别为前景激光点二维图像非零值的横纵坐标;

所述的非线性坐标映射方法,通过神经网络学习模型训练出摄像头采集图像坐标与计算机坐标的映射关系,步骤如下:

得到摄像头采集到图像中激光点的坐标(u,v)后,将该坐标映射到计算机中的坐标完成交互;该系统摄像头摆放位置非固定,投影过程或者摄像头采集图像有可能存在非线性畸变,需要非线性的模型完成坐标映射模块;通过神经网络学习一个模型完成非线性映射,首先要对系统输入进行归一化,假定输入为(u,v),采集图像y的分辨率为picwidth×picheight,归一化方程为:

<mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msup><mi>u</mi><mo>&prime;</mo></msup><mo>=</mo><mfrac><mi>u</mi><mrow><msub><mi>pic</mi><mrow><mi>w</mi><mi>i</mi><mi>d</mi><mi>t</mi><mi>h</mi></mrow></msub></mrow></mfrac></mrow></mtd></mtr><mtr><mtd><mrow><msup><mi>v</mi><mo>&prime;</mo></msup><mo>=</mo><mfrac><mi>v</mi><mrow><msub><mi>pic</mi><mrow><mi>h</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></msub></mrow></mfrac></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>8</mn><mo>)</mo></mrow></mrow>

令系统输入Sin=(u′,v′)T,系统输出为归一化计算机坐标Sout=(X′,Y′)T,计算机分辨率为pcwidth×pcheight,则计算机坐标计算公式为:

<mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><mi>X</mi><mo>=</mo><msup><mi>X</mi><mo>&prime;</mo></msup><mo>&times;</mo><msub><mi>pc</mi><mrow><mi>w</mi><mi>i</mi><mi>d</mi><mi>t</mi><mi>h</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mrow><mi>Y</mi><mo>=</mo><msup><mi>Y</mi><mo>&prime;</mo></msup><mo>&times;</mo><msub><mi>pc</mi><mrow><mi>h</mi><mi>e</mi><mi>i</mi><mi>g</mi><mi>h</mi><mi>t</mi></mrow></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>9</mn><mo>)</mo></mrow></mrow>

系统输入为摄像头采集图像归一化坐标Sin=(u′,v′)T,系统输出为计算机图像归一化坐标Sout=(X′,Y′)T,其映射关系由下式确定:

<mrow><msub><mi>S</mi><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow></msub><mo>=</mo><mi>&sigma;</mi><mo>{</mo><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>M</mi></munderover><msubsup><mi>&omega;</mi><mrow><mi>k</mi><mi>j</mi></mrow><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>&lsqb;</mo><mi>&sigma;</mi><mrow><mo>(</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>2</mn></munderover><msubsup><mi>&omega;</mi><mrow><mi>j</mi><mi>i</mi></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><msub><mi>S</mi><mrow><mi>i</mi><mi>n</mi></mrow></msub><mo>+</mo><msubsup><mi>&omega;</mi><mrow><mi>j</mi><mn>0</mn></mrow><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msubsup><mo>)</mo></mrow><mo>&rsqb;</mo><mo>+</mo><msubsup><mi>&omega;</mi><mrow><mi>k</mi><mn>0</mn></mrow><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msubsup><mo>}</mo><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>10</mn><mo>)</mo></mrow></mrow>

其中ω(1)为输入层与隐藏层之间的系数矩阵,ω(2)为隐藏层与输出层之间的系数矩阵,M为除去偏置后的隐藏层神经元个数,σ(·)表示sigmoid函数,函数表达式为:

<mrow><mi>&sigma;</mi><mrow><mo>(</mo><mi>z</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>z</mi></mrow></msup></mrow></mfrac><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>11</mn><mo>)</mo></mrow></mrow>

由ω(1)和ω(2)便得到采集图像激光点坐标(u,v)与计算机坐标(X,Y)的唯一对应关系,求解ω(1)和ω(2)涉及神经网络的训练过程,训练过程利用BP神经网络误差反向传播,训练数据通过预先投影棋盘图像,然后利用harris角点检测得到对应的数据;假设采集的角点数为N,检测出的输入角点归一化后数据和输出角点归一化数据防止过拟合的正则化神经网络的代价函数为:

<mrow><mo>{</mo><mrow><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>,</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup></mrow><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>,</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup></mrow></munder><mfrac><mn>1</mn><mrow><mn>2</mn><mi>N</mi></mrow></mfrac><msubsup><mi>&Sigma;</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><mo>|</mo><mo>|</mo><msubsup><mi>S</mi><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow><mi>i</mi></msubsup><mo>-</mo><msubsup><mi>S</mi><mrow><mi>s</mi><mi>t</mi><mi>d</mi></mrow><mi>i</mi></msubsup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mfrac><mi>&lambda;</mi><mrow><mn>2</mn><mi>N</mi></mrow></mfrac><mo>|</mo><mo>|</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mfrac><mi>&lambda;</mi><mrow><mn>2</mn><mi>N</mi></mrow></mfrac><mo>|</mo><mo>|</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>12</mn><mo>)</mo></mrow></mrow>

其中

所述的分区域的激光点行为分析方法,将投影屏幕划分成绘图交互区域和控制交互区域,解决了交互命令易误判的问题,步骤如下:

在多媒体激光笔交互中涉及到的功能包括“下一页”、“上一页”,“第一页”、“绘图标注”和“清除绘图”;采用对绘图轨迹识别完成相应功能,“绘图标注”功能旨在允许用户绘制任意图形达到强调功能,用户在使用“绘图标注”功能时系统容易误判成其他控制交互功能,为了增加交互行为的鲁棒性,采用分区域的激光点行为分析实时完成上述交互功能:

1)划分交互区域:在幻灯片的制作过程中,演讲者将需要演示的内容置于屏幕显要的位置,在屏幕的四个角落很少放置演示内容,“绘图标注”功能旨在标注演示内容,在屏幕的四个角落“绘图标注”功能很少用到,用户划分屏幕主显示区域为绘图交互区域,重点完成“绘图标注”功能,把屏幕某个角落或某些角落划分成控制交互区域完成其他交互功能;以屏幕右上角划分为控制交互区域为例,控制交互区域坐标(X,Y)限制为:

<mrow><mfenced open = "{" close = ""><mtable><mtr><mtd><mrow><msub><mi>pc</mi><mrow><mi>w</mi><mi>i</mi><mi>d</mi><mi>t</mi><mi>h</mi></mrow></msub><mo>-</mo><msub><mi>Th</mi><mrow><mi>w</mi><mi>i</mi><mi>d</mi></mrow></msub><mo>&lt;</mo><mi>X</mi><mo>&lt;</mo><msub><mi>pc</mi><mrow><mi>w</mi><mi>i</mi><mi>d</mi><mi>t</mi><mi>h</mi></mrow></msub></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>&lt;</mo><mi>Y</mi><mo>&lt;</mo><msub><mi>Th</mi><mrow><mi>h</mi><mi>e</mi><mi>i</mi></mrow></msub></mrow></mtd></mtr></mtable></mfenced><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>14</mn><mo>)</mo></mrow></mrow>

其中Thwid×Thhei为交互区域的大小,由用户控制;

2)“绘图标注”实现:对激光点行为分析,若激光点落在绘图交互区域,并且连续在某一邻域出现一段时间则启动“绘图标注”功能;若连续一段时间检测不到激光点则关闭“绘图标注”功能;为了增强系统的鲁棒性,采用投票的原则判断激光点在某一邻域的停留时间,假设采集N帧图像,若满足下式则启动“绘图标注”功能:

其中Th×Th为邻域大小,counte为N帧图像内检测到激光点的个数,(Xi,Yi)为检测到激光点映射后的坐标;当counto>N×50%时关闭“绘图标注”功能,其中counto为连续时间内未检测到激光点的个数;

3)控制交互区域内的交互功能:若激光点落在控制交互区域内,则根据激光点的不同行为完成交互任务;将激光点在交互区域内的绘图轨迹,映射成相应的交互命令;以一种交互识别方法为例,若是向右划线则为“下一页”功能,向左划线为“上一页”功能,向上划线为“第一页”功能,向下划线为“清除绘图”功能;其条件约束分别为:

“下一页”:

“上一页”:

“第一页”:

“清除绘图”:

其中(X1,Y1)为绘图轨迹初始点,Thi为允许划线的浮动控制量,Tho为完成交互所需划线的长度;

通过将屏幕划分为绘图交互区域和控制交互区域的方法,解决了交互过程中交互命令易误判,实时完成丰富的交互命令。

2.根据权利要求1所述的激光笔交互方法,其特征在于,针对公式(12)防止过拟合的正则化神经网络的代价函数进行提升批量处理优化问题的速度,利用增量梯度的方法:

<mrow><mo>{</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>,</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>}</mo><mo>=</mo><mi>arg</mi><munder><mrow><mi>m</mi><mi>i</mi><mi>n</mi></mrow><mrow><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>,</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup></mrow></munder><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><msubsup><mi>S</mi><mrow><mi>o</mi><mi>u</mi><mi>t</mi></mrow><mi>i</mi></msubsup><mo>-</mo><msubsup><mi>S</mi><mrow><mi>s</mi><mi>t</mi><mi>d</mi></mrow><mi>i</mi></msubsup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mfrac><mi>&lambda;</mi><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow></msup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>+</mo><mfrac><mi>&lambda;</mi><mn>2</mn></mfrac><mo>|</mo><mo>|</mo><msup><mi>&omega;</mi><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></msup><mo>|</mo><msubsup><mo>|</mo><mn>2</mn><mn>2</mn></msubsup><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>13</mn><mo>)</mo></mrow></mrow>

其中i=1~N循环选取直到算法收敛。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510047988.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top