[发明专利]一种基于多维要素视频分割的段落关联规则评判方法有效
申请号: | 201910395119.6 | 申请日: | 2019-05-13 |
公开(公告)号: | CN110097026B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 胡燕祝;田雯嘉 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 要素 视频 分割 段落 关联 规则 评判 方法 | ||
1.一种基于多维要素视频分割的段落关联规则评判方法,其特征在于:
步骤一:视频解析:
视频解析的第一步是数据接收,需要对视频做一个解复用的处理,分解为图像轨道、音频轨道、字幕轨道;
步骤二:场景分割中的关键帧提取:
使用聚类技术,将一个镜头的所有帧进行聚类,然后根据类别中的帧数准则,在这些类别中选取关键类别,再在关键类别中选取聚类参数最小的帧作为关键帧;
步骤三:基于关键帧的场景分割:
采用光流法对场景进行分割,利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性,根据上一帧与当前帧之间的对应关系,计算得到相邻帧之间物体的运动信息,分割后的视频,可以被表示为x1,…,xi,其中x表示被分割的视频的时间段,i表示被分割视频的个数;
步骤四:视频的音频分割:
基于EMD的音频分割方法,具体过程如下:
(1)原音频数据序列X(t),确定所有极大值点,并用三次样条插值函数拟合形成原数据的上包络线;
(2)找出所有的极小值点,并将所有的极小值点通过三次样条插值函数拟合形成数据的下包络线;
(3)上包络线和下包络线的均值记作ml,将原数据序列X(t)减去该均值包络ml,得到一个新的音频数据序列hl,如公式所示:
hl=X(t)-ml;
(4)对EMD分解后的音频数据进行聚类分割;
(5)分割后的音频,可以被表示为y1,…,yj,其中y表示被分割的音频的时间段,j表示被分割音频的个数;
步骤五:视频的语义分割:
对于段落的语义分割,包含如下几个方面:
(1)定义语义块:语义块是指将一个句子分割为若干个相对独立的语义单元,是一种语法、语义、语用关联的预处理手段,各语义块之间非递归、非嵌套、不重叠;
(2)句义分割:自然语言处理需要分析三个方面:语法,语义和上下文,因此首先进行文本分词及词性标的统计处理工作,进行完词分类后,对其进行快速标注工作,随后对于词进行语义重组,最后在根据定义好的语义块,进行句义分割;
(3)分割后的段落,可以被表示为z1,…,zk,其中z表示被分割的音频的时间段,k表示被分割音频的个数;
步骤六:GNN网络的分割视频的段落关联规则评判方法:
图形神经网络(GNN,Graph Neural Network)建模系统中对象之间的关系或交互,对于同一段视频,根据上面的场景、声音、段落,从三个维度上进行分割后,得到了不同时间段的视频,在三个维度分割的视频,并不能完全对齐,会产生交叉的情况,因此采用GNN神经网络,对上述分割后的视频段落的关联性进行评价;t表示每一秒的视频,GNN(t|x)是指当前在场景维度上分割视频段提取的特征向量,GNN(t|y)是指当前在声音维度上分割视频段提取的特征向量,GNN(t|z)是指当前在段落维度分割视频段提取的特征向量,在此基础上对分割后的三维度的视频片段构建关联网络;
步骤七:构建关联网络:
构建关联网络分为2个步骤:
(1)从单个维度出发,根据欧氏距离或者汉明距离,构建各视频段中的网络关联规则,包括节点之间的强度和方向;
(2)把三个维度的关联网络复合在一起,形成一个新的有向关联网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910395119.6/1.html,转载请声明来源钻瓜专利网。