[发明专利]一种基于卷积块注意机制的视听双模态语音识别方法有效

专利信息
申请号: 202011080817.6 申请日: 2020-10-11
公开(公告)号: CN112216271B 公开(公告)日: 2022-10-14
发明(设计)人: 王兴梅;赵一旭;孙卫琦 申请(专利权)人: 哈尔滨工程大学
主分类号: G10L15/02 分类号: G10L15/02;G10L17/00;G10L25/84;G06N3/08;G06N3/04;G06V10/25;G06V10/82
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 卷积 注意 机制 视听 双模 语音 识别 方法
【说明书】:

发明提供一种基于卷积块注意机制的视听双模态语音识别方法,包括如下步骤:(1)对视听双模态信息数据集进行预处理;(2)提出构建CBAM‑AV‑LipNet模型;(3)完成基于卷积块注意机制的视听双模态语音识别任务,实现视听双模态语音识别任务。本发明利用提出构建的CBAM‑AV‑LipNet模型对测试集进行特征提取得到深层融合特征向量,对其进行CTC贪婪搜索解码,获得识别文本信息,完成视听双模态语音识别任务。本发明提出的基于卷积块注意机制的视听双模态语音识别方法较传统的语音识别方法和视觉语音识别模型LipNet具有良好的识别性能和收敛速度,同时具有一定的抗噪能力和有效性。

技术领域

本发明涉及一种视听双模态语音识别方法,尤其涉及一种基于卷积块注意机制的视听双模态语音识别方法,属于深度学习语音识别技术领域。

背景技术

随着信息技术的飞速发展,人机交互技术作为智能化生活的核心技术,吸引越来越多的研究学者投入到相关的研究工作中。其中,语音识别技术的出现使得计算机可以“听懂”人类的语音,真正意义上实现了人机交互。传统的语音识别技术是以听觉信息为研究对象,但由于在现实的音频环境中,存在大量噪声或存在多说话者的情况,传统的语音识别技术往往不能高效地识别音频信息内容。近年来,视觉信息作为传统语音识别方法的补充信息,被引入到语音识别技术中,它可以很好地提升高强度噪声或嘈杂环境中语音信息的识别率,产生的模型更具鲁棒性。因此,基于视觉的语音识别技术,以及听觉和视觉相结合的视听双模态语音识别方法得以快速发展。在已有的文献中最著名和效果最好的方法主要包括:1.基于视觉语音识别方法的端到端唇读网络:2016年Assael Y M,Shillingford B,Whiteson S,et al.Lipnet:End-to-end sentence-level lipreading.https://arxiv.org/abs/1611.01599.这篇论文是牛津大学、Google DeepMind和加拿大高等研究院(CIFAR)联合首次发布的第一个在唇读领域将深度学习应用于端到端学习的网络模型,具有重要价值的学术论文。提出利用深度学习实现语句层面的自动唇读技术LipNet模型,采用一种能够将可变长度的视频序列映射为文本的模型,完全是以端到端的方式训练,模型实现了93.4%的准确度,超过经验丰富的人类唇读者。2.基于CNN的单词级别视听双模态模型方法:2016年Chung J S,Zisserman A.Lip reading in the wild.Asian Conferenceon Computer Vision.Springer,Cham,2016:87-103.提出一种基于CNN的单词级别识别模型,该模型以VGG-M为基础,构建多路特征提取框架,最终获得良好的识别效果。3.基于深度循环神经网络的单词级别视听双模态语音识别模型:2018年Petridis S,Stafylakis T,MaP,et al.End-to-end audiovisual speech recognition.IEEE InternationalConference on Acoustics,Speech and Signal Processing(ICASSP).Calgary Canada:IEEE Computer Society,2018:6548-6552.提出利用ResNet结构对视觉、听觉双模态信息进行特征提取并得到特征向量,将特征向量分为正向、反向两个流,均经过LSTM提取时序特征得到新的特征向量,将上述两个特征向量融合完成最终的识别。4.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别模型:2019年王一鸣,陈恳,萨阿卜杜萨拉木·艾海提拉木.基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别.电信科学,2019,35(12):79-89.提出使用SDBN提取稀疏特征,BLSTM提取时序特征,通过注意力机制将视觉信息数据和听觉信息数据对齐,该模型具有一定的有效性和鲁棒性。5.基于DenseNet和resBi-LSTM的汉语唇读语音识别方法:2020年Xuejuan Chen,Jixiang Du,HongboZhang.Lipreading with DenseNet and resBi-LSTM.Signal,Image and VideoProcessing,2020:1-9.提出一种由三维卷积层、DenseNet和剩余双向长短期记忆神经网络组成的模型,采用多重注意力叠加模型将汉语拼音转换为汉字,最终获得汉字结果,其能有效地提高语音识别效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011080817.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top