[发明专利]一种视频镜头语言识别方法有效
申请号: | 202110908072.6 | 申请日: | 2021-08-09 |
公开(公告)号: | CN113591761B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 刘盾;沈余银;宋升 | 申请(专利权)人: | 成都华栖云科技有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/764;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 | 代理人: | 刘俊 |
地址: | 610000 四川省成都市中国(四川)自*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 镜头 语言 识别 方法 | ||
1.一种视频镜头语言识别方法,其特征在于:所述识别方法包括:
S1、准备模型训练和测试数据:逐帧计算视频序列的光流场得到相邻两帧的光流场序列,对每一帧光流场数据进行设置得到模型训练和测试的输入图像,并对输入图像进行标签标记;
S2、构建深度学习神经网络模型,并根据训练数据及其对应的标签训练该模型,通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型;
所述对每一帧光流场数据进行设置包括:
A1、将每一帧光流场数据的幅值和角度数据都映射到0到255范围之间;
A2、与每一帧光流场数据对应,生成一帧高宽与输入视频高宽一样的RGB图像数据,并将A1中的光流场的幅值作为R分量的数据,将A1中的角度值作为G分量的数据,将B分量数据全部设置为255;
A3、以上述图像的中心为圆心坐标,以高宽中较小的值的一半为半径画圆,将该图像圆内的像素的G分量全部设置为1;
A4、将上述图像缩小为阈值大小,作为模型训练和测试的输入图像,阈值为64×64大小的图像。
2.根据权利要求1所述的一种视频镜头语言识别方法,其特征在于:所述对输入图像进行标签标记包括:
将拍摄动作类型为推镜头的图像标记为1、拉镜头的图像标记为2、升镜头的图像标记为3、降镜头的图像标记为4、左摇镜头的图像标记为5、右摇镜头的图像标记为6、跟随镜头的图像标记为7、静止镜头的图像标记为8;
将标记结果写入文本文件,文件行数对应于用于训练的图像个数,每一行记录本行对应的训练图像的路径以及该训练图像所属的镜头类型。
3.根据权利要求1所述的一种视频镜头语言识别方法,其特征在于:所述构建深度学习神经网络模型包括:
输入层为卷积层Conv2D,包含32个卷积核,卷积核大小为3*3*3,输入大小为64*64*3,输出大小为64*64*32;
在输入层后面跟一个激活层,激活函数为relu函数;
接着是2*2的最大池化层,再接一个丢弃层,丢弃概率为0.25,再接一个卷积层,包含64个卷积核,卷积核大小为3*3*32.输出大小为32*32*64;
再接一个激活层,激活函数为relu函数;再接一层2*2的最大池化层;再接一个丢弃层,丢弃概率为0.25;再接一层flatten层,将输出展平为1*16384;再接入一个全连接层,输出为1*64;再接一个激活层,激活函数为relu函数;再接一个丢弃层,丢弃概率为0.25;再接入一个全连接层,输出为1*8;再接入一个激活层,激活函数为softmax,输出为1*8。
4.根据权利要求3所述的一种视频镜头语言识别方法,其特征在于:所述通过训练好的模型预测输入的测试数据,得到输入的测试数据的拍摄动作类型包括:
输入测试数据到模型中,模型最后一个激活层softmax输出8个浮点数;
判断8个浮点数中最大值对应的标签数是什么,根据标签数确定测试数据的镜头类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都华栖云科技有限公司,未经成都华栖云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110908072.6/1.html,转载请声明来源钻瓜专利网。