[发明专利]一种基于卷积块注意机制的视听双模态语音识别方法有效

申请号：	202011080817.6	申请日：	2020-10-11
公开（公告）号：	CN112216271B	公开（公告）日：	2022-10-14
发明（设计）人：	王兴梅;赵一旭;孙卫琦	申请（专利权）人：	哈尔滨工程大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L17/00;G10L25/84;G06N3/08;G06N3/04;G06V10/25;G06V10/82
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积注意机制视听双模语音识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于卷积块注意机制的视听双模态语音识别方法，其特征是，包括如下步骤：

(1)对视听双模态信息数据集进行预处理：①对视听双模态信息数据集中的原始图像序列提取嘴部ROI图像序列，进行图像增强，得到预处理视觉信息数据；②对视听双模态信息数据集中的原始音频数据进行STFT算法处理及最大最小归一化处理，得到预处理听觉信息数据；

(2)提出构建CBAM-AV-LipNet模型：①以3层CBAM-STCNN Module，1层Bi-GRU堆叠构成视觉特征提取网络，CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成；首先以预处理视觉信息数据为输入，通过CBAM-STCNN Module提取预处理视觉信息数据的视觉空间深层特征，随后利用Bi-GRU对视觉空间深层特征进一步提取视觉深层时序特征，得到视觉深层特征矩阵；②以3层CBAM-CNN Module，1层Bi-GRU堆叠构成听觉特征提取网络，CBAM-CNN Module由卷积神经网络层、通道注意力模块以及空间注意力模块构成；首先以预处理听觉信息数据为输入，通过CBAM-CNN Module提取预处理听觉信息数据的听觉空间深层特征，随后利用Bi-GRU对听觉空间深层特征进一步提取听觉深层时序特征，得到听觉深层特征矩阵；③将视觉特征提取网络提取到的视觉深层特征矩阵和听觉特征提取网络提取到的听觉深层特征矩阵在时间维度上连接，通过2层Bi-GRU、1层FC和softmax层提取深层融合特征；④以CTC损失函数计算损失值，反向传播更新模型参数，得到训练收敛的CBAM-AV-LipNet模型；

(3)将训练好的CBAM-AV-LipNet模型对测试数据进行识别以完成基于卷积块注意机制的视听双模态语音识别任务：①利用CBAM-AV-LipNet模型对测试集进行特征提取得到深层融合特征向量；②对深层融合特征向量进行CTC贪婪搜索解码，获得识别文本信息，实现视听双模态语音识别任务。

2.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：在步骤(1)中对视听双模态信息数据集中的原始图像序列，使用Dlib脸部检测器提取嘴部ROI图像序列，进行颜色规范化并以概率p水平翻转完成图像增强处理，得到预处理视觉信息数据。

3.根据权利要求1或2所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(1)中对视听双模态信息数据集中的原始音频数据，使用滑窗大小为40ms，滑窗滑动步长为10ms，采样率为16kHz的STFT算法，得到321维的频谱矩阵，并对频谱矩阵使用最大最小归一化处理，得到预处理听觉信息数据。

4.根据权利要求1所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：在步骤(2)中CBAM-STCNN Module由时空卷积层、通道注意力模块以及空间注意力模块构成；其中，时空卷积层提取特征的卷积操作为：表示第l层的输出，表示第l-1层的输出，为第l层的学习权重参数，表示第l层的偏置，表示激活函数，C表示通道数，T表示时间步长，W表示特征映射的宽，H表示特征映射的高；令通道注意力模块提取通道特征的过程为：F_v′表示视觉通道深层特征矩阵，F_v表示视觉时空深层特征，表示外积操作，M_c(·)表示通道注意力矩阵，f₁(·)和f₂(·)表示卷积操作，AvgPool(·)为平均池化操作，MaxPool(·)为最大池化操作，sigm(·)为sigmoid激活函数；空间注意力模块提取空间特征的过程为：F_v″表示视觉空间深层特征矩阵，表示连接操作，M_s(·)表示空间注意力矩阵，f^7×7×7表示7×7×7的卷积层。

5.根据权利要求1或4所述的基于卷积块注意机制的视听双模态语音识别方法，其特征是：所述步骤(2)中使用Bi-GRU对CBAM-STCNN Module提取到的视觉空间深层特征F_v″进一步提取视觉深层时序特征，得到视觉深层特征矩阵F_v-final。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011080817.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种市政道路工程用画线装置
下一篇：用于子痫前期临床风险评估的长链非编码RNA

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积块注意机制的视听双模态语音识别方法有效

专利文献下载