[发明专利]一种跨模态唇读的对抗性双重对比自监督学习方法有效
申请号: | 202110773180.7 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113239903B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 张雪毅;刘丽;常冲;刘忠;龙云利 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/08;G10L15/06;G10L15/16;G10L15/25 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态唇读 对抗性 双重 对比 监督 学习方法 | ||
本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法,该方法包括视觉编码器、音频编码器、两个具有平均池的多尺度时间卷积网络、身份鉴别器和模态分类器。该方法通过结合基于视听同步的双对比学习、身份对抗训练和模态对抗训练来学习有效的视觉表示。在双对比学习中,将噪声对比估计作为训练目标,来区分真实样本和噪声样本。在对抗训练中,提出了一个身份鉴别器和一个模态分类器用于视听表示,身份鉴别器用来区分输入的视觉特征是否具有共同的身份,模态分类器是预测输入特征是属于视觉模态还是音频模态,然后利用动量梯度反转层实现对抗性训练。
技术领域
本发明属于图像处理领域,具体是涉及到一种跨模态唇读的对抗性双重对比自监督学习方法。
背景技术
监督深度学习在图像分类、目标检测与分割、语音识别、机器翻译等许多领域都取得了革命性的进展。尽管监督学习在过去的几年里取得了显著的进步,但它的成功很大程度上依赖于大量的人工注释训练数据。然而,对于一些特定的任务,例如唇读,注释的成本可能非常昂贵。近年来,自监督学习因其高标记效率和良好的泛化能力而受到越来越多的关注。自监督学习方法在自然语言处理、计算机视觉和跨模表示学习中显示出了巨大的潜力。
人类在言语感知过程中,既依赖于听声音,又依赖于看唇动。如果我们听到的声音与我们看到的唇动不匹配,我们会感到困惑,这意味着声音和唇动传达的是相同的语音信息。在这一观察的驱动下,声音和唇动可以自然地被视为相互监督的信号,以学习多种下游任务的辨别性A-V表示(视听表示),如跨模态检索、语音识别和唇读。
基于深度学习的唇读工作主要集中在可视化前端网络和序列后端网络这两个子网的架构设计上。在视觉前端网络的设计上,很多文献利用深度卷积进行视觉特征提取。唇读任务主要有两个:单词水平和句子水平。前者是对输入视频中的孤立单词进行分类,通常采用多分类交叉熵损失训练。后者用于句子级序列预测,可以使用连接主义者时间分类损失(CTC)和序列间损失来训练模型。视听自监督学习的目的是在不需要任何人工标注的情况下,从同时发生的视听数据对中提取有效的表示。基于音频和视频的自然同步特性,现有的方法主要采用对比学习来实现这一目标。
发明内容
给定一个说话的面部视频,嘴唇的动作和音频是自然地同时发生和同步的。以往在这方面的研究尝试采用两两对比的策略,使视觉嵌入与相应的音频嵌入更接近并进一步远离非相应的音频嵌入,尽管取得了显著的进步,但这些方法有以下缺点:首先,两两对比学习需要人工选择负样本,其效果很大程度上取决于负样本的有效性;其次,表示学习仅依赖于同步的音视频数据对,其他自监督信号,如说话者相关信息和模态信息,也可以用来优化学习表示的质量,但是这些自监控信号通常在以前的工作中被忽略。
为了解决这些缺陷,本发明提出了一种跨模态唇读的对抗性双重对比自监督学习方法(Adversarial Dual-Contrast Self-Supervised Learning,ADC-SSL),该方法包括视觉编码器,音频编码器,两个具有平均池的多尺度时间卷积网络,身份鉴别器和模态分类器,该方法通过结合基于A-V同步的双对比学习,身份对抗训练和模态对抗训练来学习有效的视觉表示,在A-V同步的双对比学习中,视觉编码器和音频编码器用来提取A-V嵌入(A表示音频,V表示视频),使用基于噪声对比估计的损失函数训练所述A-V嵌入,得到短时的A-V同步表示,使用两个具有平均池的多尺度时间卷积网络用来聚合所述短时的A-V同步表示的全局语音信息。在身份对抗训练和模态对抗训练中,身份鉴别器用来区分输入的A-V嵌入是否具有共同的身份,模态分类器预测输入A-V嵌入是属于视觉模态还是音频模态,然后利用基于动量更新的动量梯度反转层实现对抗性训练。
给出一个嘴巴说话的视频以及相应的音频,视觉编码器和音频编码器用来提取A-V嵌入。为了保证A-V嵌入的一致性,音频编码器网络和视觉编码器网络都以相同的时长摄取剪辑。
双对比学习目标和的目的是使视觉嵌入在短时间尺度和长时间尺度上更接近于相应的音频嵌入。对抗性学习目标和使学习到的嵌入不分模式信息和身份信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110773180.7/2.html,转载请声明来源钻瓜专利网。