[发明专利]一种跨模态唇语识别方法在审
申请号: | 202110941080.0 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113851131A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 梁雪峰;黄奕洋 | 申请(专利权)人: | 西安电子科技大学广州研究院 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/16;G10L15/20;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京高航知识产权代理有限公司 11530 | 代理人: | 乔浩刚 |
地址: | 510700 广东省广州市黄*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 跨模态唇语 识别 方法 | ||
1.一种跨模态唇语识别方法,其特征在于,包括:
S1,数据预处理:
对于视频数据,首先识别脸部的68个关键点,并通过仿射变换将每张脸部图像标准化为正面视图,最后裁剪出嘴唇区域;
对于音频数据,首先将其下采样为16kHz,并转换为梅尔倒谱系数特征,然后将所有时刻的梅尔倒谱系数向量进行归一化并按照时间顺序组成特征矩阵;
S2,模型训练:
S21,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在每个分支的属性学习模块中进行说话人识别任务的训练;
S22,将成对的视频数据和音频数据分别输入到视觉识别分支和语音识别分支中,在两个分支共用的对比学习模块中,利用说话人识别任务获取的表征,标准化语义特征,然后进行音视频跨模态对比学习;
S23,仅输入音频序列,去除说话人音色特点,标准化语音特征,利用反向传播算法对语音识别分支的模型参数进行更新,以确保参与对比学习的中间音频特征S正确;
S24,仅输入视频序列,去除说话人唇形特点,标准化唇语特征,利用反向传播算法对唇语识别分支的模型参数进行更新;
重复以上S21-S24直到学习率衰减后连续多轮训练内损失函数值不再降低,即模型收敛;
S3,模型部署:
仅输入待识别的非训练数据视频序列,使用视觉识别分支,去除说话人唇形特点,并对唇语特征进行标准化,最后进行唇语特征到文字的映射。
2.根据权利要求1所述的一种跨模态唇语识别方法,其特征在于,所述视觉识别分支包括3D卷积模块、第一递归神经网络模块、第一说话人特征提取模块、第一属性学习模块、对比学习模块、第二递归神经网络模块、第一注意力模块和第一映射模块;
所述3D卷积模块用于获取唇部动作的短时特征;
所述第一递归神经网络模块用于建立唇部动作的长时依赖关系;
所述第一说话人特征提取模块用于提取不同说话人的唇形特征;
所述第一属性学习模块用于利用已获得的说话人唇形特征消除不同说话人的唇形差异;
所述对比学习模块用于使用跨音视频数据的自监督对比学习方法,使模型从视频数据自身的另一表现形式音频中获得先验知识,并引导视觉识别分支学习唇形特征;
所述第二递归神经网络模块用于强化经过对比学习层的视频中间特征S序列的上下文关系;
所述第一注意力模块用于在时域中通过对第二递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的视频帧;
所述第一映射层用于将第一注意力模块输出的最终唇部运动特征映射到文本域中。
3.根据权利要求2所述的一种跨模态唇语识别方法,其特征在于,所述语音识别分支包括:
2D卷积模块、第三递归神经网络模块、第二说话人特征提取模块、第二属性学习模块、对比学习模块、第四递归神经网络模块、第二注意力模块和第二映射模块;
所述2D卷积模块用于对梅尔倒谱特征进行短时语音特征提取;
所述第三递归神经网络模块用于建立语音特征的长时依赖关系;
所述第二说话人特征提取模块用于提取不同说话人的音色特征;
所述第二属性学习模块用于利用已获得的说话人音色特征消除不同说话人的音色差异;
所述第四递归神经网络模块用于强化经过对比学习模块的音频中间特征S序列的上下文关系;
所述第二注意力模块用于在时域中通过对第四递归神经网络模块输出的不同时间点特征分配不同的权重来帮助模型忽略无关的音频片段;
所述第二映射模块用于将第二注意力模块输出的最终音频特征映射到文本域中。
4.根据权利要求2所述的一种跨模态唇语识别方法,其特征在于,所述第一映射层包括基于带ReLU激活函数的多层感知机的非线性映射的分类器。
5.根据权利要求3所述的一种跨模态唇语识别方法,其特征在于,使用联结主义时间分类损失函数分别对视觉识别分支和语音识别分支进行约束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学广州研究院,未经西安电子科技大学广州研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110941080.0/1.html,转载请声明来源钻瓜专利网。