[发明专利]一种基于多尺度视频特征融合的语音唇读方法及系统有效

申请号：	202110716761.7	申请日：	2021-06-28
公开（公告）号：	CN113450824B	公开（公告）日：	2022-08-16
发明（设计）人：	熊盛武;曾瑞;陈燚雷	申请（专利权）人：	武汉理工大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L19/16;G06V40/20;G06V40/16;G06V20/40;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	罗飞
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于尺度视频特征融合语音方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多尺度视频特征融合的语音唇读方法，其特征在于，包括：

S1：获取大量的说话人说话视频数据集；

S2：从获取的视频数据集中提取出视频帧和语音数据，其中，提取出的视频帧为静音的视频帧；

S3：从语音数据中提取出Mel谱；

S4：构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量，多尺度特征融合模块首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，再利用自注意力将各时间金字塔的特征进行融合；解码器用于根据融合后的时空向量重建出语音Mel谱，声码器用于将得到的代表语音的Mel谱转化为语音；

S5：将步骤S2中提取出的视频帧作为训练数据，对语音唇读模型进行训练，将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标，得到训练好的语音唇读模型；

S6：利用训练好的语音唇读模型对输入的视频进行语音识别。

2.如权利要求1所述的语音唇读方法，其特征在于，在将步骤S2中提取出的视频帧作为训练数据，对语音唇读模型进行训练之前，所述方法还包括：

采用人脸对齐工具，检测视频帧中的人脸特征点，并剪裁成预设大小。

3.如权利要求1所述的语音唇读方法，其特征在于，步骤S4中位置编码模块的处理过程包括：

学习一个函数G_spe(·)，将每一个位置索引映射到具有相同长度的片段特征向量中，带有位置信息的特征向量表示为其中，G_spe(·)为一个正余弦函数，两个位置之间的关系能够通过他们位置编码间的仿射变换来建模获得，表示不带位置信息的特征向量，k表示每一帧在序列中的位置。

4.如权利要求1所述的语音唇读方法，其特征在于，步骤S4中的解码器包括一个前处理网络、两层LSTM和一个位置敏感的注意力层。

5.如权利要求1所述的语音唇读方法，其特征在于，步骤S5中以解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标，构建MSE损失函数，公式为：

式中，代表模型重建出的语音Mel谱，y_i代表真实语音Mel谱，n代表样本对的个数。

6.一种基于多尺度视频特征融合的语音唇读系统，其特征在于，包括：

视频数据获取模块，用于获取大量的说话人说话视频数据集；

语音分离模块，用于从获取的视频数据集中提取出视频帧和语音数据，其中，提取出的视频帧为静音的视频帧；

语音特征提取模块，用于从语音数据中提取出Mel谱；

语音唇读模型构建模块，用于构建基于多尺度视频特征融合的语音唇读模型，其中，语音唇读模型包括编码器、解码器以及声码器，编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块，多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征，得到不同尺度的特征向量，位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中，多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合，得到融合后的时空向量，多尺度特征融合模块首先利用点乘注意力将同一时间金字塔内不同尺度的视频片段特征进行特征融合，再利用自注意力将各时间金字塔的特征进行融合；解码器用于根据融合后的时空向量重建出语音Mel谱，声码器用于将得到的代表语音的Mel谱转化为语音；

模型训练模块，用于将语音分离模块中提取出的视频帧作为训练数据，将解码器重建出的语音Mel谱和语音特征提取模块中提取出的Mel谱之间的MSE损失最小化为目标，对语音唇读模型进行训练，得到训练好的语音唇读模型；

语音识别模块，用于利用训练好的语音唇读模型对输入的视频进行语音识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110716761.7/1.html，转载请声明来源钻瓜专利网。

上一篇：跨链系统、面向跨链系统的分布式用户身份认证方法
下一篇：一种汽车鼓刹片内外面抛光打磨装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多尺度视频特征融合的语音唇读方法及系统有效

专利文献下载