[发明专利]一种基于多维分割的视频结构化方法有效

申请号：	201910394330.6	申请日：	2019-05-13
公开（公告）号：	CN110197135B	公开（公告）日：	2021-01-08
发明（设计）人：	胡燕祝;田雯嘉	申请（专利权）人：	北京邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明主要提供一种基于多维分割的视频结构化方法，具体内容包括：步骤一：视频解析；步骤二：场景分割中的关键帧提取；步骤三：基于关键帧的场景分割；步骤四，视频的音频分割；步骤五，视频的语义分割；步骤六，信息熵为目标函数的分割规则。本发明对同一段视频在场景、声音、文本三个维度上进行分割后，采用了信息熵的形式对分割规则进行了评价。与其他视频结构化方法相比，本发明结合图像序列中像素在时间域上的变化以及相邻帧之间的相关性以及上一帧与当前帧之间的对应关系对视频在图像维度实现了很好的分割，保留了视频的关键信息，可以提供一种有效的视频结构化方法。
搜索关键词：	一种基于多维分割视频结构方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.本发明主要提供一种基于多维分割的视频结构化方法，其特征在于：步骤一：视频解析。视频解析的第一步是数据接收，需要对视频做一个解复用的处理，分解为图像轨道、音频轨道、字幕轨道。步骤二：场景分割中的关键帧提取。关键帧提取方法主要分为五类，具体方法如图2所示。(1)基于边界提取关键帧。该方法把每个镜头第一帧和最后一帧或中间帧直接作为关键帧选取出来。这样运算量小，适合于内容活动性小或保持不变的镜头。(2)基于视觉特征提取关键帧。该方法首先选择第一帧作为最近的关键帧，然后，后面的帧依次与其比较视觉特征，这些特征包括颜色、运动、边缘、形状和空间关系等。如果当前帧和最近的关键帧之间的差值超过了一个预定的阈值，那么当前帧就被选为关键帧。(3)基于聚类提取关键帧。这类方法使用了聚类技术，将一个镜头的所有帧进行聚类，然后根据某些准则，比如类别中的帧数，在这些类别中选取关键类别，再在关键类别中选取聚类参数最小的帧作为关键帧。(4)基于多模式提取关键帧。该类方法主要是模仿人类感知能力进行精简视频内容分析，一般是综合视频、音频、文本等。比如，在电影、体育等视频中的场景切换，视频与音频内容往往同时变化，所以就需要用多模式的提取方法，当镜头边界的音频和视频特征同时变化较大时，该镜头边界为新的场景边界。(5)基于压缩域提取关键帧。基于压缩域的方法无需对视频流解压或只需部分解压，直接从MPEG压缩视频流上提取关键帧，降低了计算的复杂性。步骤三：基于关键帧的场景分割。主要包括如下三个方面：(1)基于帧间差分检测。帧间差分法是一种通过对视频图像序列中相邻两帧作差分运算来获得运动目标轮廓的方法，它可以很好地适用于存在多个运动目标和摄像机移动的情况。(2)基于背景差分检测。背景差分法是一种对静止场景进行运动分割的通用方法，它将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，而且为避免环境光照变化影响，背景图像根据当前获取图像帧进行更新。具体内容如图3所示。(3)基于光流法检测。光流法利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，根据上一帧与当前帧之间的对应关系，计算得到相邻帧之间物体的运动信息。(4)分割后的视频，可以被表示为x₁,…,x_i，其中x表示被分割的视频的时间段，i表示被分割视频的个数。步骤四：视频的音频分割。基于EMD的音频分割方法，具体过程如下：(1)原音频数据序列X(t)，确定所有极大值点，并用三次样条插值函数拟合形成原数据的上包络线。(2)找出所有的极小值点，并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线。(3)上包络线和下包络线的均值记作ml，将原数据序列X(t)减去该平均包络ml，得到一个新的音频数据序列hl，如公式所示：hl＝x(t)‑ml(4)对EMD分解后的音频数据进行聚类分割。(5)分割后的音频，可以被表示为y₁,…,y_j，其中y表示被分割的音频的时间段，j表示被分割音频的个数。步骤五：视频的语义分割。对于段落的语义分割，主要包含如下几个方面：(1)定义语义块。语义块是指将一个句子分割为若干个相对独立的语义单元，长度基于词义之上句义之下；是一种语法、语义、语用关联的预处理手段。各语义块之间非递归、非嵌套、不重叠。(2)句义分割。自然语言处理通常需要分析三个方面：语法，语义和上下文，因此首先进行文本分词及词性标的统计处理工作，进行完词分类后，对其进行快速标注工作，随后对于词进行语义重组，最后在根据定义好的语义块，进行句义分割。(3)分割后的段落，可以被表示为z₁,…,z_k，其中z表示被分割的音频的时间段，k表示被分割音频的个数。步骤六：信息熵为目标函数的分割规则。对于同一段视频，进行上面的场景、声音、段落三个维度上进行分割后，得到了不同时间段的视频，在三个维度分割的视频，并不能完全对齐，会产生交叉的情况，因此本发明采用信息熵的形式，对上述指标进行评价。∑[p(t|x₁),…,p(t|x_i)]＝∑[p(t|y₁),…,p(t|y_j)]＝∑[p(t|z₁),…,p(t|z_k)]＝1其中，t表示每一秒的视频，p(t|)是指当前在各个维度分割视频段的出现概率。根据此公式，信息熵公式如下：H(t)＝‑{p(t|x)log[p(t|x)]+p(t|y)log[p(t|y)]+p(t|z)log[p(t|z)]}其中，H(t)为在视频某时刻的信息熵的数值，而形成的信息熵序列。对H(t)进行一阶、二阶处理，看信息熵序列是否平滑。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京邮电大学，未经北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910394330.6/，转载请声明来源钻瓜专利网。

上一篇：一种人体动作检测方法及装置
下一篇：一种基于动作边界概率的级联动作候选框生成方法与系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多维分割的视频结构化方法有效

专利文献下载