[发明专利]一种多媒体信息处理方法、装置、电子设备及存储介质有效
申请号: | 202010956391.X | 申请日: | 2020-09-11 |
公开(公告)号: | CN112104892B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 杨喻茸;徐叙远;龚国平;方杨 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/234 | 分类号: | H04N21/234;H04N21/233;H04N21/2743;G10L25/51;G10L25/57;G10L25/24;G10L25/18;H04L29/08;H04L9/32;G06Q40/04 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 王花丽;张颖玲 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多媒体 信息处理 方法 装置 电子设备 存储 介质 | ||
1.一种多媒体信息处理方法,其特征在于,所述方法包括:
获取目标多媒体信息,并对所述目标多媒体信息进行解析以实现分离出所述多媒体信息中所包括的目标音频;
对所述目标音频进行转换处理,形成与目标音频相对应的梅尔频谱图;
利用多媒体信息处理模型,根据所述目标音频相对应的梅尔频谱图,确定所述目标音频对应的第一音频特征向量,其中,所述多媒体信息处理模型基于与使用环境相匹配的动态噪声进行训练得到;
确定与所述目标多媒体信息相对应的源多媒体信息,并获取源多媒体信息对应的第二音频特征向量,
基于所述目标多媒体信息的目标音频与所述源多媒体信息的源音频,通过所述第一音频特征向量和所述第二音频特征向量,确定对应的帧间相似度参数集合;
获取帧间相似度参数集合中达到相似度阈值的音频帧数量;
基于达到相似度阈值的音频帧数量,确定所述目标多媒体信息与源多媒体信息的相似度。
2.根据权利要求1所述的方法,其特征在于,所述获取目标多媒体信息,并对所述目标多媒体信息进行解析以实现分离出所述目标多媒体信息中所包括的目标音频,包括:
对所述目标多媒体信息进行解析,获取所述目标多媒体信息的时序信息;
根据所述目标多媒体信息的时序信息,对所述目标多媒体信息所对应的视频参数进行解析,获取与所述目标多媒体信息对应的播放时长参数与音轨信息参数;
基于所述目标多媒体信息对应的播放时长参数与音轨信息参数,对所述目标多媒体信息进行抽取以获取所述目标多媒体信息对应的目标音频。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标音频进行转换处理,形成与目标音频相对应的梅尔频谱图,包括:
对所述目标音频进行声道转换处理,形成单声道音频数据;
基于与多媒体信息处理模型相对应的加窗函数,对所述单声道音频数据进行短时傅里叶变换,形成相应的频谱图;
确定所述多媒体信息处理模型相对应的时长参数;
根据所述时长参数,对所述频谱图进行处理,形成与目标音频相对应的梅尔频谱图。
4.根据权利要求1所述的方法,其特征在于,所述通过多媒体信息处理模型,根据所述目标音频相对应的梅尔频谱图,确定所述目标音频对应的第一音频特征向量,包括:
基于所述梅尔频谱图,确定相应的输入三元组样本,并将所述输入三元组样本输入多媒体信息处理模型;
通过所述多媒体信息处理模型的卷积层和最大值池化层对所述输入三元组样本交叉进行处理,得到不同输入三元组样本的降采样结果;
通过所述多媒体信息处理模型的全连接层,对所述不同输入三元组样本的降采样结果进行归一化处理;
通过所述多媒体信息处理模型对所述不同输入三元组样本的降采样的归一化结果,进行深度分解处理,确定与所述不同输入三元组样本相匹配的第一音频特征向量。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取第一训练样本集合,其中所述第一训练样本集合为通过终端采集的视频信息中的音频样本;
对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合;
通过多媒体信息处理模型对所述第二训练样本集合进行处理,以确定所述多媒体信息处理模型的初始参数;
响应于所述多媒体信息处理模型的初始参数,通过所述多媒体信息处理模型对所述第二训练样本集合进行处理,确定所述多媒体信息处理模型的更新参数;
根据所述多媒体信息处理模型的更新参数,通过所述第二训练样本集合对所述多媒体信息处理模型的网络参数进行迭代更新。
6.根据权利要求5所述的方法,其特征在于,所述对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合,包括:
确定所述多媒体信息处理模型的使用环境相匹配的动态噪声类型;
根据所述动态噪声类型,对所述第一训练样本集合进行噪声添加,以改变所述第一训练样本集合中音频样本的背景噪音、音量或者采样率,形成相应的第二训练样本集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010956391.X/1.html,转载请声明来源钻瓜专利网。