[发明专利]一种音视协同的唇语识别方法及系统在审
申请号: | 202110800963.X | 申请日: | 2021-07-15 |
公开(公告)号: | CN113658582A | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 杨双;罗明双;山世光;陈熙霖 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 协同 识别 方法 系统 | ||
1.一种音视协同的唇语识别方法,其特征在于,包括:
步骤1、获取包含说话人脸视频的唇语识别数据集,且各说话人脸视频均具有标签类别;对说话人脸视频进行唇部区域提取,得到视觉模态数据,对说话人脸视频进行音频波形采样和特征提取,得到音频模态数据;将各说话人脸视频的视觉模态数据和音频模态数据绑定,作为一个样本;
步骤2、在唇语识别数据集中随机抽取N个不同标签类别,对抽取出来的每个类别的样本数进行随机划分,分别得到每个类别的视觉支持集、视觉查询集、音频支持集和音频查询集作为一批训练数据;
步骤3、对于每次迭代训练,将该视觉支持集和该视觉查询集输入至视觉编码器中,将该音频支持集和该音频查询集输入至音频编码器中,分别得到得到视频序列特征X(v)和音频序列特征X(a)以及每个样本的原型表示;
步骤4、分别计算音视两个模态的支持集中各类别原型表示的中心,得到所有支持集类别中心;计算查询集样本分别经过映射函数后与各个支持集类别中心的距离,并根据该距离计算该查询集数据属于各类别的概率,以得到音频编码器和视频编码器的跨模态损失函数;
步骤5、根据该概率,计算每个查询集样本与每个支持集类别中心表示的距离以及属于类别n的概率,以分别计算音频编码器和视频编码器的单模态损失函数;根据该跨模态损失函数和该单模态损失函数,构建最终损失函数;
步骤6、循环执行该步骤2至该步骤5,直到该最终损失函数,保存当前视觉编码器模型参数;在该视觉编码器输出端连接一个由全连接层构建的分类器,形成唇语识别模型,将待唇语识别的视频输入至该唇语识别模型,得到唇语识别结果。
2.如权利要求1所述的音视协同的唇语识别方法,其特征在于,该步骤3包括:
其中,X表示输入的视频序列数据,θ(v)表示视觉编码器参数,θ(a)表示音频编码器参数。
3.如权利要求2所述的音视协同的唇语识别方法,其特征在于,该步骤4包括:
通过下式得到各支持集类别中心的表示:
分别表示音视两种模态的支持集中类别n的中心表示,指St中类别n的样本数,Π(·)表示指示函数,yX表示重新定义后的样本类别;
计算查询集样本数据分别经过映射函数fv→a和ga→v后与各个支持集类别中心的距离,并根据该距离计算该查询集数据属于类别n的概率,计算方式如下:
fv→a和ga→v分别指代视觉向量映射到音频空间、音频向量映射到视觉空间的映射函数,d(·,·)指两个向量的距离,这里用欧几里得距离;
计算音视跨模态协同训练的优化损失函数,根据上述过程,对于音视两个模态的编码器模型的该跨模态损失函数可以表示为:
4.如权利要求3所述的音视协同的唇语识别方法,其特征在于,该步骤5包括:
对音视各自单模态的不同类别的原型表示进行度量学习,在得到的基础上,计算每个查询集样本数据与每个类别的支持集中心表示的距离,并计算属于类别n的概率,计算方式如下:
分别计算音视两模态的各模态内基于度量学习的优化损失函数,优化目标定义为最大化模型将查询集样本分类为正确类yq的可能性:
该最终损失函数计算方式如下:
LAVS(θ(a),θ(v))=λvLv(θ(v))+λaLa(θ(a))+λa→vLa→v(θ(v))+λv→aLv→a(θ(a))
其中均为权值系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110800963.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种物联网终端智能运维管理平台
- 下一篇:多通道瞬时电压抑制装置