[发明专利]基于关键行为识别的移动端短视频高光时刻剪辑方法在审
申请号: | 202310085888.2 | 申请日: | 2023-02-09 |
公开(公告)号: | CN116095363A | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 吴家骥;赵坤;陈少宏;马彦泽;谭铭洲 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/2343;H04N21/44;H04N21/4402;H04N21/8549 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 行为 识别 移动 视频 时刻 剪辑 方法 | ||
1.一种基于关键行为识别的移动端短视频高光时刻剪辑方法,其特征在于,包括以下步骤:
(1)对用户筛选的图像帧和视频剪辑素材按照拍摄时间进行排序,并对用户输入的视频素材进行抽帧,得到多个视频素材的抽帧序列;
(2)从多个视频素材的抽帧序列中获取细粒度的关键行为标签;
(2a)从公开网站中下载现有的四个深度学习模型,即训练好的目标检测模型、目标追踪模型、姿态估计模型、骨骼行为识别模型;
(2b)将步骤(1)中获得的每个视频素材的抽帧序列逐帧输入到现有的目标检测模型,输出画面中每个人物的最小外接矩形框坐标数据,作为人物Bounding Box坐标数据;
(2c)将人物Bounding Box坐标数据输入到现有训练好的目标追踪模型中,输出每个人物在整个视频素材序列上的连续唯一ID标识符,即对输入的视频素材进行行人重识别;
(2c)将连续多帧检测到的人物Bounding Box坐标数据输入到现有训练好的的姿态估计模型,输出每个人物Bounding Box坐标数据对应的人体骨骼关键点坐标序列数据;
(2d)将连续多帧的人体骨骼关键点坐标序列数据输入现有训练好的的骨骼行为识别模型,按照每个人物的唯一ID标识符依次输出关键行为的检测结果;
(2e)对上述输出的人物Bounding Box坐标数据、每个人物的连续唯一ID标识符、人体骨骼关键点坐标序列数据以及关键行为的检测结果进行合并,输出关键行为的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息,构成一个细粒度的关键行为标签;
(3)基于输出的细粒度关键行为标签信息,对原始视频自动进行剪辑分割,切分并输出包含完整关键行为的视频切片素材以及不包含关键行为的视频切片素材;
(4)对用户筛选的图像帧素材及步骤(3)得到的不包含关键行为的视频切片素材按照拍摄时间戳排序,并对排序后的图像帧和视频素材依次进行场景分割和高光帧检测,将相邻时间的场景序列帧进行合并,输出每个场景下的高光帧图像帧素材;
(5)将步骤(3)得到的包含完整关键行为的视频切片素材和步骤(4)得到的每个场景下的高光帧图像帧素材,按照时间顺序进行排序、剪辑,输出高光时刻视频。
2.根据权利要求1所述的方法,其特征在于,步骤(2d)中将连续多帧的人体骨骼关键点坐标序列数据输入现有的骨骼行为识别模型,按照每个人物的唯一ID标识符依次输出关键行为的检测结果,实现如下:
(2d1)按照人物唯一ID标识符确定所选人物,在所选人物连续多帧的人体骨骼关键点坐标序列数据中选取起始的连续N帧人体骨骼关键点坐标序列数据,其中N为[15,60]区间中的一个正整数;
(2d2)将上述选取的连续N帧的人体骨骼关键点坐标序列数据输入现有的关键行为检测模型中,对所选人物进行关键行为检测,输出检测结果;
(2d3)在所选人物连续多帧的人体骨骼关键点坐标序列数据上向后滑动M帧,并重新选取N帧人体骨骼关键点坐标序列数据,重复步骤(2d2)迭代,直到滑动到所选人物连续多帧的人体骨骼关键点坐标序列数据的最后一帧结束,其中M为[5,15]区间中的一个正整数;
(2d4)基于所选人物在滑动窗口上的多次关键行为检测结果,当前后两次关键行为检测结果类别相同,且两者间隔时间不超过T时,合并这两次关键行为检测结果作为一个新的关键行为检测结果,其中T为[3,10]区间中的一个正整数;
(2d5)基于上述关键行为检测结果输出所选人物每个关键行为对应的起始和结束时间戳、关键行为的类别、关键行为发生的画面区域信息。
3.根据权利要求1中所述的方法,其特征在于,步骤(4)中对排序后的图像帧和视频素材依次进行场景分割和高光帧检测,实现如下:
(4a)对视频素材进行抽帧,得到每个视频素材的抽帧序列图像帧;
(4b)按照拍摄的时间戳对图像帧素材和视频素材抽帧后输出的抽帧序列图像帧进行排序;
(4c)对上述排序好的图像帧进行场景分类,按照分类结果将同一个场景下的所有图像帧进行归类、输出;
(4d)依次对上述输出的每个场景下归类的所有图像帧进行清晰度、稳定度、明亮度三种质量评估,按照评估结果输出每个场景中的高光帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310085888.2/1.html,转载请声明来源钻瓜专利网。