[发明专利]手语视频的相似度评估模型的建立方法有效
申请号: | 201110200160.7 | 申请日: | 2011-07-14 |
公开(公告)号: | CN102222237A | 公开(公告)日: | 2011-10-19 |
发明(设计)人: | 尹宝才;王茹;王立春;孔德慧 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/64 | 分类号: | G06K9/64 |
代理公司: | 北京中北知识产权代理有限公司 11253 | 代理人: | 冯梦洪 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手语 视频 相似 评估 模型 建立 方法 | ||
技术领域
本发明属于图像处理的技术领域,具体地涉及一种手语视频的相似度评估模型的建立方法。
背景技术
手语合成是近年来比较活跃的一个研究方向。从合成效果的真实感和可接受程度上看,基于真人视频剪辑拼接的手语合成方法比基于三维模型的方法具有明显的优势。并且基于真人视频拼接的手语,可提高合成手语的可接受性,将其应用于计算机等交互界面中,为听障人群提供更为形象生动的视觉语言表达界面。
视频相似度研究主要包括两方面,一是相似性度量,二是快速检索方法。视频检索方面的研究已经取得了一定的成果,如意大利巴勒莫大学开发的基于内容的视频查询系统JACOB。它主要强调视频数据流中时序的分割、基于时序的语义的提取,对于视频的特征提取,除了颜色信息、纹理信息、形状信息等图像特征外,还可以利用运动信息。在特征提取和相似性度量方面,已经有一些具有参考意义的研究结果,如清华大学的高跃等人提出了基于片段的视频拼接方法,通过次采样帧和层次累计聚类提取视频特征,用比例化最大权二分匹配实现相似性度量;普林斯顿大学的董伟等人提出了随机化视频特征提取算法,将特征投影到基于位置敏感哈希(LSH)的直方图上,并采用基于核的相似性度量方法。这些研究研究虽然在特征提取和相似性度量中获得了一定的成功,但其所采用的计算过程一般较复杂,而且特征数量的增多也带来了相似性度量的困难并且缺乏对特征的进一步筛选和特征计算的简化。针对这些问题,曹政等人提出了一种快速相似视频检索方法,从视觉相似性出发,根据视频的时空分布特征统计计算压缩视频签名,通过视频签名的距离度量视频相似性,该方法对大规模数据库亦快速有效,但也存在一个问题,就是该方法只解决了视频的视觉相似性,不包含语义信息,而视觉相似的视频可能包含不同的语义,反之语义相似的视频内容也可能完全不同。手语运动主要侧重语义的理解,因此,除了视觉信息,还需要重点考虑手语运动的语义信息。
手语是人体运动形式的一个子集,因此对人的运动分析的方法同样适用于手语运动分析,手语视频相似度评估和检索的依据是逻辑相似性,即是否属于同一类型的运动序列。Kovar等人利用多步搜索策略实现了这一目的,他们定义了一种基于DTW的索引结构motion web作为度量运动间数值相似性的标准,然后以已检索出的数字相似的运动作为中间媒介,继续搜索与它们数值相似的运动,该方法的问题是算法复杂度较高。在SIGGRAPH2005中,Muller等提出了有效的基于内容的运动检索方法,用来搜索逻辑相似的运动序列,通过引入语义丰富的几何特征,将运动库中的运动数据按照特征分割为小段,对这些分割段建立索引,可以使相似性搜索在分割段的层次进行,而不是在帧的层次进行,有效地降低了运算复杂度,但该方法的检索依赖于对输入文本的分析,因而对交互过程中的用户输入要求比较高,不能实现通过解析输入视频进而检索相似视频的目的。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提供一种融合视觉特征和语义特征的手语视频的相似度评估模型的建立方法。
本发明的技术解决方案是:这种手语视频的相似度评估模型的建立方法,包括以下步骤:
(1)确定主观评估值:对随机抽取N个人的每个视频对进行整体相似度评估,并给出N个主观评分,然后对N个主观评分取平均值作为主观评估值,N为正整数;
(2)进行特征提取:对每个视频逐帧进行标注,包括肩、肘、腕三个关节位置的标注,并存储成.xml格式的文件,特征提取包括对用于轨迹评估的关节位置的提取和对用于轮廓评估的胳膊形态的提取,然后基于贪心算法提取出左右胳膊的样例库;
(3)进行视觉相似度评估:基于视频时空分布特征计算得到压缩视频签名,并通过计算视频签名距离进行视觉相似性度量;
(4)进行轮廓相似度评估:基于步骤(2)的样例库,将视频的每帧图像与样例库中的样例进行比较,提取出给定视频的胳膊形态序列,通过比较的匹配程度进行轮廓相似度的评估;
(5)进行运动轨迹相似度评估:基于步骤(2)的腕关节位置的标注,生成运动轨迹,并确定轨迹的距离,该距离即DTW(Dynamic Time Warping,动态时间规整)失真度,然后将其转换到[0,1]区间作为其运动轨迹的相似度评估;
(6)进行模型融合:视觉相似度评估、轮廓相似度评估和运动轨迹相似度评估作为解释变量,步骤(1)的主观评估值作为响应变量,将解释变量与响应变量进行多元线性回归分析,然后融合成多元线性评估模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110200160.7/2.html,转载请声明来源钻瓜专利网。