[发明专利]一种基于稀疏样本的视频压缩方法在审

申请号：	202010372156.8	申请日：	2020-05-06
公开（公告）号：	CN111565318A	公开（公告）日：	2020-08-21
发明（设计）人：	郑志浩;姚远;张学睿;张帆;尚明生	申请（专利权）人：	中国科学院重庆绿色智能技术研究院
主分类号：	H04N19/42	分类号：	H04N19/42;H04N19/85;H04N7/18;G06K9/62;G06N3/04;G06N3/08
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400714 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏样本视频压缩方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于稀疏样本的视频压缩方法，其特征在于，该方法具体包括以下步骤：

S1：数据预处理；

S2：构建训练稀疏视频样本扩充模型，首先通过变分自编码器与生成对抗网络结合的视频生成方法，利用变分自编码器对数据集中视频的每一帧进行学习，构建具有良好连续性的隐空间，隐空间中的每一点对应视频中的一帧；然后将噪声与文本输入生成对抗网络的生成器，生成器则生成潜变量空间中的多个相关联的点，最后将这些相关联的点通过变分自编码器的解码器生成多帧相关联连续图像；

S3：构建训练视频压缩网络模型，并将生成的连续图像输入视频压缩模型，通过CNN网络进行背景帧的筛选，然后使用基于卷积神经网络的YOLO神经网络对每一帧图像当中的目标进行识别，并保存识别信息，即为压缩视频。

2.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S1中，所述数据预处理具体包括：针对少量采集视频，先将视频文件做音频抽离处理，得到“视频-音频”数据，对收集的视频及音频数据做归一化处理，得到生成对抗网络训练过程中使用的数据集；并将视频按帧分割，对分割得到的每一帧图像匹配其原所属视频的音频片段，得到稀疏样本扩充模型的基础数据集。

3.根据权利要求1所述的一种基于稀疏样本的视频压缩方法，其特征在于，步骤S2中，构建的稀疏视频样本扩充模型包括训练变分自编码器和生成对抗网络，模型训练具体包括：

1)从预处理得到的数据集中随机抽取N个“图像-音频”样本输入到变分自编码器进行训练；变分自编码器中编码器输出的隐空间维度为D，变分自编码器包括编码器Encoder和解码器Decoder，其中编码器Encoder通过对输入的每一帧图像x计算均值m_x和方差v_x，将图像映射到专属于该图像的正态分布N(m_x，v_x)，再从该分布中随机采样一个D维的隐变量，将该隐变量输入解码器Decoder，Decoder输出解码图像；同一类别的图像经过Encoder编码后所对应的分布聚集在隐空间的同一均值m_i附近，这个均值通过神经网络计算得到；然后从预处理之后的数据集中取出M个样本对，作为生成对抗网络训练中使用的真实样本对；将取得的样本对进行视频-音频随机配对，得到M个不匹配样本对，随后将M个真实样本对、M个不匹配样本对、以及M个实际匹配的音频输入生成对抗网络进行训练；

2)生成对抗网络的训练过程分为生成器G的训练和判别器D的训练，生成器G的训练以最小化LossG为目标，判别器D的训练以最小化LossD为目标；训练过程中先训练判别器D，再训练生成器G，重复训练过程，直到生成的视频样本质量达到要求。

4.根据权利要求3所述的一种基于稀疏样本的视频压缩方法，其特征在于，所述变分自编码器的损失函数为：

其中，m_x、v_x分别是图像x经过编码器Encoder得到的正态分布的均值和方差，m_i是图像x所属类别均值，x为变分自编码器输出的重建图像，为目标值；训练过程以最小化损失函数loss为目标；

生成器G的损失函数为：

LossG＝-log(D(x_g，xv_g)) (2)

其中，x_g为输入生成器G生成的视频样本，xv_g为生成器G输入的音频样本；

判别器D的损失函数为：

LoosD＝-log(D(z_r，s_r))-log(1-D(z_m，s_m))-log(1-D(z_f，s_g)) (3)

其中，z_r、z_m、z_f分别是x_r、x_m、x_g经过变分自编码器的编码器Encoder后得到的正态分布中随机采样出的隐变量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院，未经中国科学院重庆绿色智能技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】