[发明专利]一种从视频中定位音源的方法有效
申请号: | 201811403303.2 | 申请日: | 2018-11-23 |
公开(公告)号: | CN109635676B | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 刘华平;王峰;郭迪;周峻峰;孙富春 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08;G10L25/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 定位 音源 方法 | ||
1.一种从视频中定位音源的方法,其特征在于,包括以下步骤:
(1)训练阶段;
(1-1)获取训练样本;获取J段视频作为训练样本,每个训练样本长度为10秒,对每个训练样本中所包含的物体类别进行标注;
(1-2)对步骤(1-1)获取的训练样本进行预处理;所述预处理包括视觉模态处理和声音模态处理;具体步骤如下:
(1-2-1)对每一个训练样本进行视觉模态处理,得到该训练样本对应的视觉特征;方法如下:
将任一训练样本10秒的视频数据进行1赫兹采样,得到对应的N=10帧图像;然后对每一帧图像进行目标检测,目标检测算法的输入为每一帧图像,输出为该帧图像对应的若干个目标检测框,将每个目标检测框对应的目标检测算法中全连接层的2048维特征取出作为该目标检测框的特征,则每帧图像的特征为该帧图像所有目标检测框的特征集合,每一个训练样本的视觉特征为该样本的N帧图像的特征集合;
记第i个训练样本的第n帧图像的第k个目标检测框的特征为i=1,…,J;其中,K为目标检测框的阈值个数,K=20;设当前图像帧的目标检测框的实际数量为M,若MK,则用K-M个0向量来补全该帧图像的特征;若M≥K,则随机选取M个目标检测框中的K个目标检测框的特征作为该帧图像的特征;得到每一帧图像的特征为K*2048维;
记录一个二进制的掩码表示第i个训练样本的第n帧图像的掩码,掩码的长度为K,其中i=1,…,J,n=1,…,N,若一帧图像共有l个有效的目标检测框,则该掩码的前l个值为1,其余的值为0,l≤K;
(1-2-2)对每一个的训练样本进行声音模态处理,得到该训练样本对应的声音特征;方法如下:
将任一训练样本的声音数据分割为10段,每一秒为一段,得到对应的N=10段声音,每一段声音对应该训练样本的一帧图像;对每段声音提取对应的梅尔声谱后,输入卷积神经网络Vggish,并将Vggish网络的全连接层的4096维特征进行主成分分析,将4096维的声音特征降至128维,得到该段声音的特征记为表示第i个训练样本的第n段声音的特征,n=1,…,N,i=1,…,J;则每个训练样本的声音特征为该样本的N段声音的特征集合;
(1-3)构建一个音源定位神经网络,该网络包括一个由全连接层构成的神经网络和一个定位网络,利用步骤(1-2)预处理完毕的训练样本对该音源定位神经网络进行训练,得到训练完毕的的音源定位神经网络;具体步骤如下:
(1-3-1)构建一个由全连接层构成的神经网络,该网络由一个视觉模态的全连接层、一个声音模态的全连接层和一个视觉模态和声音模态共享的全连接层构成;
(1-3-2)将每个训练样本视觉特征中各帧图像的各个目标检测框的2048维特征输入到视觉模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维视觉特征;将每个训练样本声音特征中每段声音的128维特征经过声音模态的全连接层,得到对应的中间表示再经过视觉模态和声音模态共享的全连接层得到公共子空间的128维声音特征;
将表示公共子空间中第i个训练样本的第n帧图像的第k个目标检测框的视觉特征,其中i=1,…,J,n=1,…,10,k=1,…,K,表示公共子空间中第i个训练样本的第n段声音的声音特征,其中i=1,…,J,n=1,…,10;
(1-3-3)将所有公共子空间的视觉特征和声音特征输入到一个定位网络,该定位网络比较每个训练样本每一段声音的声音特征和这一段声音对应的图像中的各个目标检测框的视觉特征,比较操作采用余弦相似度来表示声音和各个目标检测框的相似度;令代表第i个训练样本第n帧图像的第k个目标检测框和该图像帧对应的1s声音的相似度,则定义其中表示的第k个分量,k=1,…,K,然后将每一帧图像的所有相似度标准化后使其和为1,得到标准化的相似度采用注意力机制将目标检测框的特征用标准化后的相似度加权求和,得到的特征来表示每帧图像与声音相关的图像特征,表示为
将和在时域上平均分别得到每个训练样本的视频平均特征h′(i)和音频平均特征s′(i),表达式如下:
(1-3-4)分别设置分类损失函数和欧式距离损失函数,表达式如下:
其中,WI,bI,WS,bS为待学习的参数,为第i个训练样本的分类损失,为第i个训练样本的欧式距离损失;
(1-3-5)采用Adam批训练梯度下降算法训练音源定位神经网络,对该神经网络迭代训练到达上限次数后停止,得到训练完毕的音源定位神经网络;
(2)测试阶段;
利用步骤(1)训练完毕的音源定位神经网络对测试视频进行音源定位,具体步骤如下:
(2-1)获取一条测试视频;
(2-2)重复步骤(1-2),对步骤(2-1)获取的测试视频进行预处理,得到该测试视频对应的视觉特征f′nk和声音特征g′n;
(2-3)将步骤(2-2)得到的视觉特征f′nk和声音特征g′n按帧组成图像和声音对,然后输入到步骤(1)训练完毕的音源定位神经网络中,并进行一次前向计算得到相似度,记d′nk代表测试视频的第n帧图像的第k个目标检测框和该帧图像对应的声音的相似度;
(2-4)设置一个阈值Ton并进行判定:若测试视频中一帧图像中的声音和该帧图像的K个目标检测框视觉特征的相似度中的最大值大于该阈值,则认为该帧的图像和声音是同步的,进入步骤(2-5);否则就认为该帧图像和声音是不同步的,该帧图像不进行音源定位;
(2-5)若该帧图像的声音和A个目标检测框的相似度大于Ton,则该帧图像A个目标检测框中每个目标检测框中的物体发出了声音,1≤A≤K,音源定位结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811403303.2/1.html,转载请声明来源钻瓜专利网。