[发明专利]一种云存储环境下基于音频字的盗版视频检测方法与系统有效

申请号：	201810258659.5	申请日：	2018-03-27
公开（公告）号：	CN108447501B	公开（公告）日：	2020-08-18
发明（设计）人：	段桂华;滕明英;王琰;张振宇	申请（专利权）人：	中南大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/45;H04N21/233;H04N21/81;H04N21/854;G06K9/62
代理公司：	长沙市融智专利事务所(普通合伙) 43114	代理人：	龚燕妮
地址：	410083 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种云存储环境下基于音频字的盗版检测方法和系统，通过多维聚类构建的音频字典，对版权资源分割后的短时音频段进行特征提取，音频段转换为可以表征音频内容的音频字序列后，建立倒排索引。检索时，将用户提交的查询转换为音频字后直接定位候选段落，并根据候选段落与查询的内容相似度与阈值的关系确定视频是否为盗版。充分利用了音频特征在传统音视频媒体文件中的稳定性，以及静默片段等特征，检测结果高效而准确，以极低的本地计算成本和较少的网络带宽，较容易的为正版资源提供了一种版权鉴定保护方案。
搜索关键词：	一种存储环境基于音频盗版视频检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种云存储环境下基于音频字的盗版视频检测方法，其特征在于，包括以下步骤：步骤1：提取音效，并进行音频字标记；提取各种视频中的音轨，从音轨中提取各种常见音效，对所提取的不同音效依次进行标号，获得每种音效的音频字；步骤2：提取各音频帧超向量；先提取每帧音频的多维特征，并对多维特征分别进行归一化处理，构建音频帧的超向量；所述每帧音频的多维特征包括宏观声学特征、时域特征、频域特征以及倒谱特征，所述音效超向量是指对音频多维特征分别进行归一化处理后得到的特征形成的一维向量；其中，宏观声学特征包括音调、音高、带宽，时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关系数，频域特征包括谱能量、子带能量比、谱质心、谱带宽、谱密度，倒谱特征包括Delta倒谱系数、LPC倒谱系数、梅尔倒谱系数；步骤3：构建音频字典；依次对每一种音效收集100个样本，提取每个样本中所有音频帧的超向量均值，将每一种音效的所有样本的超向量均值使用k‑均值聚类算法聚成3个类，每一个聚类中心作为一个新的音频字wi，每一个新的音频字均进行唯一标记wi，利用新的音频字生成音频字典为W＝{w1,w2,…,wk}，k＝1200；步骤4：音频分割：采用3阶段的自顶向下多层分割方法，将步骤1中提取出的音轨Di依据声学特征分割成音频片段；步骤5：音频字转换；计算每个音频片段中所有帧音频的超向量均值，并依据音频字典中的音频字对每个音频片段标记，得到每一个音轨对应的音频字序列表示第i个音轨中的第j个音频片段对应的音频字；N_i表示第i个音轨中包含的音频片段总数；步骤6：构建音频字在音轨中的时刻位置索引表；对所有上传的正版视频资源依次进行音轨提取、音频帧超向量提取、音频分割以及音频字转换，并将所有正版视频资源中音频字出现在音轨中的时刻位置进行记录，获得各正版视频中所有音频字出现在各音轨中的时刻位置倒排索引表；步骤7：音频检索；将上传的待检测的视频进行音轨提取、音频帧超向量提取、音频分割以及音频字转换得到对应的音频字序列，将待检测视频的音频字序列中包含的音频字按照顺序与所述时刻位置索引表中音频字进行匹配，若待检测的音频字序列中存在至少N个连续的音频字与某一正版视频中连续的音频字一一匹配，则选取对应正版视频中连续匹配的音频字的起始位置所在的候选音频段落C，计算各正版视频候选段落C与待检测视频的音频字序列的匹配度，若匹配度超过设定的匹配度阈值，则判定当前待检测的视频属于对应正版视频的盗版资源；所述匹配度是指音频字的出现时间的吻合程度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810258659.5/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种云存储环境下基于音频字的盗版视频检测方法与系统有效

专利文献下载