[发明专利]一种基于多粒度知识蒸馏的唇语识别方法在审

申请号：	201911258317.4	申请日：	2019-12-10
公开（公告）号：	CN111223483A	公开（公告）日：	2020-06-02
发明（设计）人：	宋明黎;赵雅;许睿	申请（专利权）人：	浙江大学
主分类号：	G10L15/25	分类号：	G10L15/25;G10L15/197;G10L15/16;G10L15/06;G06N3/08;G06N3/04;G06K9/00;G06F40/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于粒度知识蒸馏识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于多粒度知识蒸馏的唇语识别方法，包括如下步骤：1)获取音频特征序列；2)构建语音识别模型；3)训练语音识别模型；4)获取数据集语音特征和语音识别结果；5)获取唇部图像序列；6)构建唇语识别模型；7)获取数据集视频特征；8)唇语识别模型训练：9)获得唇语识别结果。本发明针对唇语识别问题中，视频特征歧义性更大的本质问题，提出了一种基于多粒度知识蒸馏的方法来增强唇语识别模型的训练。通过利用已经学习好的语音识别模型，从多个时间尺度、多个粒度，让唇语识别模型向语音识别模型学习，以增强其提取具有辨别性的视觉特征的能力，从而提高唇语识别准确率。

技术领域

本发明属于唇语识别领域，针对唇语视频图像可辨别行不高的问题，提出一种基于多粒度知识蒸馏的唇语识别方法。

背景技术

唇语识别，旨在从视频中观察人嘴唇运动，从而识别出对应的文本内容。其在辅助语音识别、公共安全分析等领域均有广阔的应用前景。唇语识别在计算机视觉研究中具有很大的挑战性，因为大多数的嘴唇运动是无法直接观察到的，比如舌头的运动，这导致看似相同的嘴唇运动实际上却对应着不同的内容。

近年来，随着深度学习和大规模数据集的蓬勃发展，一些著名的企业和高校，提出了许多基于神经网络的唇语识别模型，如基于序列到序列模型的唇语识别方法，或基于连接主义的时间分类损失。在词语或者句子级别的识别任务上，相较于传统的唇语识别系统，这些方法的性能有了大幅度的提升。现有虽然取得了一定进展，但是没有显式地解决唇语视频歧异性这一本质问题，仍有可改进的空间。

发明内容

有鉴于此，本发明克服现有技术的不足，提出一种基于多粒度知识蒸馏的唇语识别方法，利用已经训练好的语音识别模型，增强唇语识别模型对视觉可辨别性特征提取的能力，提高唇语识别的准确率。

一种基于多粒度知识蒸馏的唇语识别方法，包括如下步骤：

1)获取音频特征序列；

使用唇语识别数据集的音频部分，计算fbank特征用作音频特征。用表示音频特征序列，I为序列长度。

2)构建语音识别模型；

用音频特征序列及其对应文本字符序列y＝[y₁,y₂,…y_K]，训练基于注意力机制的序列到序列模型，其中K为目标文本字符序列长度。应用于语音识别的基于注意力机制的序列到序列模型包含2个模块：时序特征提取模块、解码模块。

时序特征提取模块：采用循环神经网络(RNN)对每一步输入音频特征进行音频时序特征提取

并得到音频语义向量：

为第i时刻时序特征提取模块的音频隐藏层特征。

解码模块：采用RNN，基于音频时序特征和已解码生成的字符，预测当前时间步的预测字符：

其中分别为第k时刻解码模块的隐藏层特征,第k时刻的音频上下文向量和前k时刻对应的目标文本字符。