[发明专利]一种基于原型视频的短视频自动编辑方法有效
申请号: | 202111442144.9 | 申请日: | 2021-11-30 |
公开(公告)号: | CN114205677B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 孙凌云;胡子衿;尤伟涛;杨昌源;季俊涛;余米 | 申请(专利权)人: | 浙江大学 |
主分类号: | H04N21/466 | 分类号: | H04N21/466;H04N21/44;H04N21/4402;H04N21/441;H04N21/8352;G06V20/40;G06V10/74;G06K9/62;G06V10/82;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 原型 视频 自动 编辑 方法 | ||
1.一种基于原型视频的短视频自动编辑方法,其特征在于,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
S3:如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;
第一原型视频与高级特征输入视频的视频相似度分数VSSIM(Ss-St)为:
其中,Ss为第一原型视频,St为高级特征输入视频,a为高级特征,FSIMa(Ss,St)为基于高级特征a的第一原型视频与高级特征输入视频的特征相似度,len(s)为是视频长度,第一原型视频与高级特征输入视频的长度相同,为第一原型视频在视频长度为i高级特征a下的每对标签之间的距离,为高级特征输入视频在视频长度为i高级特征a下的每对标签之间的距离,wa为高级特征a的权重;
第一原型视频与其他原型视频的动态兼容因子DC(Sc,St)为:
其中,Sc为其他原型视频,CDISa(Ss,Sc)为基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数;
基于高级特征a的第一原型视频与原型数据库中其他原型视频的兼容性距离度量分数CDISa(Ss,Sc)为:
其中,为高级特征a的第一原型视频的各个标签的频率分布,为高级特征a的其他原型视频的各个标签的频率分布,为高级特征a的第一原型视频的第i个标签的频率,为高级特征a的其他原型视频的第i个标签的频率,n为标签数量;
采用维特比算法选择各个高级特征目标子视频中的最终候选镜头是基于高级特征目标子视频序列与最终原型视频的最大平均视频相似度分数确定的,最大平均视频相似度分数为:
其中,ωi,j为第i个高级特征目标子视频的第j个候选镜头与高级特征输入视频相似度分数,k为候选镜头数量;
S4:迭代步骤S2,S3,将满足视频相似度分数阈值的多个第一最终原型视频作为第一最终原型视频集;
S5:将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第一最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,从而得到最终短视频。
2.根据权利要求1所述的基于原型视频的短视频自动编辑方法,其特征在于,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,包括:
利用YOLOv3方法提取多个输入视频帧的人物基本特征,利用Alphapose方法提取多个输入视频帧的感兴趣区域特征,人物基本特征和感兴趣区域特征构建了多个基本特征。
3.根据权利要求1所述的基于原型视频的短视频自动编辑方法,其特征在于,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频,包括:
所述的高级特征包括方向、运动强度、姿态和框架中景别,将基本特征输入至随机森林或决策树模型中得到了被标签标记的高级特征输入视频。
4.一种基于原型视频的短视频自动编辑方法,其特征在于,包括:
S1:对输入视频进行帧采样得到多个输入视频帧,分别利用YOLOv3和Alphapose方法对多个输入视频帧进行处理得到多个基体特征,将多个基本特征输入至随机森林或决策树模型得到带有标签的高级特征输入视频;
S2:获得第二最终原型视频集,所述第二最终原型视频集为用户从原型数据库中选择的第二原型视频;
从原型数据库中选择第一原型视频集,基于视频结构相似性度量从第一原型视频集中选择与高级特征输入视频的视频相似度分数最高的原型视频作为第一原型视频;
如果第一原型视频与高级特征输入视频的视频相似度分数低于视频相似度分数阈值,则基于第一原型视频与原型数据库中其他原型视频的兼容性距离度量得到第一原型视频与其他原型视频的动态兼容因子,将高于动态兼容因子阈值的原型视频作为第二原型视频集,并将第二原型视频集中与高级特征输入视频相似度分数最高的原型视频作为第二原型视频;
将高级特征输入视频划分为高级特征目标子视频序列,将每个高级特征目标子视频划分为多个高级特征镜头,将第二最终原型视频分为多个目标镜头,基于视频结构相似性度量,在每个高级特征目标子视频中选择与每个目标镜头的视频相似度分数最高的高级特征镜头作为候选镜头,删除各个高级特征目标子视频中的重复候选镜头,然后采用维特比算法选择各个高级特征目标子视频中的最终候选镜头,从而得到最终短视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111442144.9/1.html,转载请声明来源钻瓜专利网。