[发明专利]一种基于多粒度知识蒸馏的唇语识别方法在审
申请号: | 201911258317.4 | 申请日: | 2019-12-10 |
公开(公告)号: | CN111223483A | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 宋明黎;赵雅;许睿 | 申请(专利权)人: | 浙江大学 |
主分类号: | G10L15/25 | 分类号: | G10L15/25;G10L15/197;G10L15/16;G10L15/06;G06N3/08;G06N3/04;G06K9/00;G06F40/30 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;黄美娟 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 粒度 知识 蒸馏 识别 方法 | ||
1.一种基于多粒度知识蒸馏的唇语识别方法,包括下列步骤:
1)获取音频特征序列;
使用唇语识别数据集的音频部分,将音频的采样率转为16kHz,以25ms作为窗口大小、10ms作为步长,计算240维的fbank特征用作音频特征;用表示音频特征序列,I为序列长度;
2)构建语音识别模型;
用音频特征序列及其对应文本字符序列y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型,其中K为目标文本字符序列长度;应用于语音识别的基于注意力机制的序列到序列模型包含2个模块:时序特征提取模块、解码模块;
时序特征提取模块:采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取:
并得到音频语义向量:
为第i时刻时序特征提取模块的音频隐藏层特征;
解码模块:采用RNN,基于音频时序特征和已解码生成的字符,预测当前时间步的预测字符:
其中分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符;
3)训练语音识别模型;
构建语音识别模型的误差损失函数,利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对语音识别模型进行训练;误差损失函数如下所示:
4)获取数据集语音特征和语音识别结果;
对唇语数据集的音频部分,根据所述训练所述学习后的语音识别模型,使用贪心搜索,对语音识别模型每一时间步的预测概率进行解码,选择概率最高的字符,得到语音识别结果及对应的音频语义向量sa、音频上下文向量ca和音频时序特征ha,其中L为语音识别模型预测结果字符序列长度;
5)获取唇部图像序列;
使用唇语识别数据集的视频部分,利用现有人脸检测和人脸关键点检测方法,从视频图像序列中定位人脸,并检测人脸关键点;利用仿射变换,将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐;截取对齐后的人脸图像的下半部分,并将彩色图转化为灰度图;以滑动窗口的方式制作唇部图像序列,窗口大小为5帧为1组,步长为2帧;用表示唇部图像序列,J为序列长度;
6)构建唇语识别模型;
用唇部图像序列及其对应文本y=[y1,y2,...yK],训练基于注意力机制的序列到序列模型;应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块:图像特征提取模块、时序特征提取模块、解码模块;
图像特征提取模块:采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取
时序特征提取模块:采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取:
并得到视频语义向量:
其中为第i时刻时序特征提取模块的视频隐藏层特征;
解码模块:采用RNN,基于图像时序特征和已解码生成的字符,预测当前时间步的预测字符:
其中分别为第k时刻解码模块的隐藏层特征,第k时刻的视频上下文向量和前k时刻对应的目标文本字符;
7)获取数据集视频特征;
将唇语数据集的视频部分送入唇语识别模型,得到对应的视频语义向量sv、视频上下文向量cv和视频时序特征hv;
8)唇语识别模型训练;
构建唇语识别模型基础损失函数:
构建多粒度知识蒸馏的损失函数,具体包含3个部分:
基于语义的知识蒸馏损失函数:
其中,t(·)为线性变换函数,sa,sv分别为音频语义向量和视频语义向量;
基于上下文的知识蒸馏损失函数:
M≤min(L,K) (18)
其中,LCS为最长公共子序列算法,为语音识别模型预测结果字符序列和目标文本字符序列y1,...,yK之间相同的子序列所对应的索引下标,ca,cv分别为音频上下文向量和视频上下文向量;
基于数据帧的知识蒸馏损失函数:
唇语识别模型的整体损失函数为:
L=Lbase+λ1LKD1+λ2LKD2+λ3LKD3 (23)
λ1,λ2,λ3为不同知识蒸馏损失函数对应的权重;利用神经网络反向传导优化算法,通过不断的输入、输出、误差计算、反向传导误差的网络优化过程,对唇语识别模型进行训练;
9)获得唇语识别结果;
根据所述训练所述学习后的唇语识别模型,使用集束搜索对语音识别模型每一时间步的预测概率进行解码,解码识别出至少4种唇语结果,按得分顺序对所述至少4种唇语结果进行得分排序,选择得分最高的唇语结果做为解码识别结果,识别出唇语结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911258317.4/1.html,转载请声明来源钻瓜专利网。