[发明专利]一种手语视频中自动裁剪多模态数据的方法有效
申请号: | 201910835953.2 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110633663B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 伍家松;李桃桃;舒华忠;孔佑勇;杨冠羽;杨淳沨;姜龙玉;章品正 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V40/16;G06V10/44;G06F16/51;G06N3/04 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 刘莎 |
地址: | 210096*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种手语视频中自动裁剪多模态数据的方法,该方法:把手语视频裁剪为图像、视频、语音以及手语四个模态的数据集合,基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对,实现视频裁剪过程全自动。本发明通过利用自定义的人脸库裁剪视频中的多模态数据,提高构建多模态数据集的效率。 | ||
搜索关键词: | 一种 手语 视频 自动 裁剪 多模态 数据 方法 | ||
【主权项】:
1.一种手语视频中自动裁剪多模态数据的方法,其特征在于,具体步骤如下:/n步骤1,构建自定义的人脸特征库/n1.1,收集电视台公开的手语视频,所述手语视频包含图像、视频、语音以及手语四个模态的信息;/n1.2,利用OpenCV获取对1.1中的手语视频的关键帧图片,同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片;/n1.3,通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸;/n1.4,将1.3截取的人脸送到FaceNet神经网络中提取人脸特征,形成人脸特征库;/n步骤2,对待裁剪手语视频进行全自动裁剪/n2.1,根据1.2至1.4中的方法提取待裁剪手语视频的人脸特征,并通过FaceNet神经网络判断待裁剪手语视频的人脸特征是否在人脸特征库中,若是则执行下一步,否则将待裁剪手语视频的人脸特征加入人脸特征库后执行下一步;/n2.2,将待裁剪手语视频的关键帧图片转化为用浮点型表示的灰度图;/n2.3,使用感知哈希算法计算某关键帧与前一关键帧对应的灰度图之间的汉明距离,若汉明距离大于12,则表示两者不为同一剪辑段,将该关键帧作为特殊帧;/n2.4,以2.3中的特殊帧为片段的初始帧,通过FFmpeg将待裁剪手语视频切割成若干片段;/n2.5,将2.4中每个片段中开始1秒的关键帧以及倒数3秒内的任一关键帧分割出来,提取与之对应的两张灰度图中的人脸特征并分别与人脸特征库中的人脸特征相比对,若相似度在95%以上则该片段为满足裁剪要求的视频片段,否则返回2.3直至待裁剪手语视频结束;/n步骤3,切割各模态数据/n3.1,利用FFmpeg把步骤2中满足裁剪要求的视频片段切割成关键帧图片和语音的集合,形成图像和语音两个模态的数据;/n3.2,通过OpenCV把3.1中的关键帧图片整合成视频,形成视频模态的数据;/n3.3,人工划定手语部分在3.1中关键帧图片中的位置,利用OpenCV把3.1中的关键帧图片中的手语部分裁剪出来,形成手语模态的数据。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910835953.2/,转载请声明来源钻瓜专利网。