[发明专利]一种云存储环境下基于音频字的盗版视频检测方法与系统有效
申请号: | 201810258659.5 | 申请日: | 2018-03-27 |
公开(公告)号: | CN108447501B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 段桂华;滕明英;王琰;张振宇 | 申请(专利权)人: | 中南大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L25/45;H04N21/233;H04N21/81;H04N21/854;G06K9/62 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 龚燕妮 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 存储 环境 基于 音频 盗版 视频 检测 方法 系统 | ||
1.一种云存储环境下基于音频字的盗版视频检测方法,其特征在于,包括以下步骤:
步骤1:提取音效,并进行音频字标记;
提取各种视频中的音轨,从音轨中提取各种常见音效,对所提取的不同音效依次进行标号,获得每种音效的音频字;
依据音频字典中的音频字对每个音频片段标记时,寻找音频字典中音频字的超向量与音频片段中所有帧音频的超向量均值距离最小的音频字作为对应音频片段的标记音频字;
步骤2:提取各音频帧超向量;
先提取每帧音频的多维特征,并对多维特征分别进行归一化处理,构建音频帧的超向量;
所述每帧音频的多维特征包括宏观声学特征、时域特征、频域特征以及倒谱特征,所述音效超向量是指对音频多维特征分别进行归一化处理后得到的特征形成的一维向量;
其中,宏观声学特征包括音调、音高、带宽,时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关系数,频域特征包括谱能量、子带能量比、谱质心、谱带宽、谱密度,倒谱特征包括Delta倒谱系数、LPC倒谱系数、梅尔倒谱系数;
步骤3:构建音频字典;
依次对每一种音效收集100个样本,提取每个样本中所有音频帧的超向量均值,将每一种音效的所有样本的超向量均值使用k-均值聚类算法聚成3个类,每一个聚类中心作为一个新的音频字wi,每一个新的音频字均进行唯一标记wi,利用新的音频字生成音频字典为W={w1,w2,…,wk},k=1200;
步骤4:音频分割:
采用3阶段的自顶向下多层分割方法,将步骤1中提取出的音轨Di依据声学特征分割成音频片段;
步骤5:音频字转换;
计算每个音频片段中所有帧音频的超向量均值,并依据音频字典中的音频字对每个音频片段标记,得到每一个音轨对应的音频字序列1≤j≤Ni,表示第i个音轨中的第j个音频片段对应的音频字;Ni表示第i个音轨中包含的音频片段总数;
步骤6:构建音频字在音轨中的时刻位置索引表;
对所有上传的正版视频资源依次进行音轨提取、音频帧超向量提取、音频分割以及音频字转换,并将所有正版视频资源中音频字出现在音轨中的时刻位置进行记录,获得各正版视频中所有音频字出现在各音轨中的时刻位置倒排索引表;
步骤7:音频检索;
将上传的待检测的视频进行音轨提取、音频帧超向量提取、音频分割以及音频字转换得到对应的音频字序列,将待检测视频的音频字序列中包含的音频字按照顺序与所述时刻位置索引表中音频字进行匹配,若待检测的音频字序列中存在至少N个连续的音频字与某一正版视频中连续的音频字一一匹配,则选取对应正版视频中连续匹配的音频字的起始位置所在的候选音频段落C,计算各正版视频候选段落C与待检测视频的音频字序列的匹配度,若匹配度超过设定的匹配度阈值,则判定当前待检测的视频属于对应正版视频的盗版资源;
所述匹配度是指音频字的出现时间的吻合程度。
2.根据权利要求1所述的方法,其特征在于,所述归一化处理是指进行规整向量计算;
规整向量f′d计算公式为:
其中,D为特征总维数,fd为原始特征,μd和σd分别为同一类音效特征的均值和标准差;通过该公式将各维特征规整到均值为0,方差为1的分布中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810258659.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音增强的方法与装置
- 下一篇:一种基于语音信息的备忘方法及终端