[发明专利]一种跨模态唇读的对抗性双重对比自监督学习方法有效
申请号: | 202110773180.7 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113239903B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 张雪毅;刘丽;常冲;刘忠;龙云利 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08;G10L15/06;G10L15/16;G10L15/25 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态唇读 对抗性 双重 对比 监督 学习方法 | ||
1.一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,使用视觉编码器和音频编码器分别从输入的视频和音频中提取,得到A-V嵌入,使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息,在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入的A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练,其中所述视觉编码器采用,所述音频编码器为基于VGG-M的卷积模型。
2.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。
3.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,双对比学习目标为短时间同步损失 和长时间同步损失。
4.如权利要求3所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,和分别为视觉表示和音频表示,其中T为时长,为嘴巴说话视频,为与相对应的音频,为视觉编码器,为音频编码器,随机抽取N个示例的小批量样本,产生嵌入,从中给出一个可视化的嵌入,相应的音频嵌入作为正样本,其他嵌入作为负样本,其中表示小批量的示例索引,表示步伐,使用来测量两个嵌入和之间的相似度,一个正对的损失函数定义为
是温度超参数,短时间同步损失。
5.如权利要求4所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,所述两个具有平均池的多尺度时间卷积网络用来聚合用于A-V表示的全局语音信息,分别表示为和,和,损失函数为
长时间同步损失。
6.如权利要求5所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,身份鉴别器为,身份辨别损失为
其中 𝐾 是总采样数,是第i次抽样从特征集中抽取的两个特征样本, ∈{0,1}是单位标号。
7.如权利要求6所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,模态分类器为,模态分类损失为
。
8.如权利要求7所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,该方法的最终损失函数为。
9.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,在身份鉴别器和模态分类器的顶部添加梯度反转层,梯度反转层将反向传播到编码器网络的加权梯度的符号反转,基于动量更新的梯度反转层对梯度更新中的加权超参数进行动量更新。
10.如权利要求1所述的一种跨模态唇读的对抗性双重对比自监督学习方法,其特征是,视觉编码器采用C3D_ResNet34作为视觉编码器网络,C3D_ResNet34将第一个卷积核展开为3D核,时间接受场为5,并去掉最后一个全连接层,音频编码器网络基于VGG-M卷积模型,多尺度时间卷积网络,由三个堆叠的多尺度膨胀TCN层、一个全连通FC层和一个平均池化层组成,身份鉴别器由一个卷积层、两个线性层和一个softmax传输函数激活层叠加而成,卷积层是对两个输入嵌入进行聚合,模态分类器由两个线性层和一个softmax传输函数激活层组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773180.7/1.html,转载请声明来源钻瓜专利网。