[发明专利]一种基于多粒度知识蒸馏的唇语识别方法在审

申请号：	201911258317.4	申请日：	2019-12-10
公开（公告）号：	CN111223483A	公开（公告）日：	2020-06-02
发明（设计）人：	宋明黎;赵雅;许睿	申请（专利权）人：	浙江大学
主分类号：	G10L15/25	分类号：	G10L15/25;G10L15/197;G10L15/16;G10L15/06;G06N3/08;G06N3/04;G06K9/00;G06F40/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于粒度知识蒸馏识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多粒度知识蒸馏的唇语识别方法，包括下列步骤：

1)获取音频特征序列；

使用唇语识别数据集的音频部分，将音频的采样率转为16kHz，以25ms作为窗口大小、10ms作为步长，计算240维的fbank特征用作音频特征；用表示音频特征序列，I为序列长度；

2)构建语音识别模型；

用音频特征序列及其对应文本字符序列y＝[y₁，y₂，...y_K]，训练基于注意力机制的序列到序列模型，其中K为目标文本字符序列长度；应用于语音识别的基于注意力机制的序列到序列模型包含2个模块：时序特征提取模块、解码模块；

时序特征提取模块：采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取：

并得到音频语义向量：

为第i时刻时序特征提取模块的音频隐藏层特征；

解码模块：采用RNN，基于音频时序特征和已解码生成的字符，预测当前时间步的预测字符：

其中分别为第k时刻解码模块的隐藏层特征，第k时刻的音频上下文向量和前k时刻对应的目标文本字符；

3)训练语音识别模型；

构建语音识别模型的误差损失函数，利用神经网络反向传导优化算法，通过不断的输入、输出、误差计算、反向传导误差的网络优化过程，对语音识别模型进行训练；误差损失函数如下所示：

4)获取数据集语音特征和语音识别结果；

对唇语数据集的音频部分，根据所述训练所述学习后的语音识别模型，使用贪心搜索，对语音识别模型每一时间步的预测概率进行解码，选择概率最高的字符，得到语音识别结果及对应的音频语义向量s^a、音频上下文向量c^a和音频时序特征h^a，其中L为语音识别模型预测结果字符序列长度；

5)获取唇部图像序列；

使用唇语识别数据集的视频部分，利用现有人脸检测和人脸关键点检测方法，从视频图像序列中定位人脸，并检测人脸关键点；利用仿射变换，将每一帧人脸图像的鼻子和眼睛部分的关键点与标准人脸模板的鼻子和眼睛部分关键点进行对齐；截取对齐后的人脸图像的下半部分，并将彩色图转化为灰度图；以滑动窗口的方式制作唇部图像序列，窗口大小为5帧为1组，步长为2帧；用表示唇部图像序列，J为序列长度；

6)构建唇语识别模型；

用唇部图像序列及其对应文本y＝[y₁，y₂，...y_K]，训练基于注意力机制的序列到序列模型；应用于唇语识别的基于注意力机制的序列到序列模型包含如下3个模块：图像特征提取模块、时序特征提取模块、解码模块；

图像特征提取模块：采用卷积神经网络(CNN)对每一步输入视频图像进行图像特征提取

时序特征提取模块：采用循环神经网络(RNN)对每一步输入图像特征进行图像时序特征提取：

并得到视频语义向量：

其中为第i时刻时序特征提取模块的视频隐藏层特征；

解码模块：采用RNN，基于图像时序特征和已解码生成的字符，预测当前时间步的预测字符：

其中分别为第k时刻解码模块的隐藏层特征，第k时刻的视频上下文向量和前k时刻对应的目标文本字符；

7)获取数据集视频特征；

将唇语数据集的视频部分送入唇语识别模型，得到对应的视频语义向量s^v、视频上下文向量c^v和视频时序特征h^v；

8)唇语识别模型训练；

构建唇语识别模型基础损失函数：