[发明专利]一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质有效
申请号: | 202110092107.3 | 申请日: | 2021-01-23 |
公开(公告)号: | CN112967713B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 王志;郭加伟;余凡;赵欣伟 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G10L15/183 | 分类号: | G10L15/183;G06F18/2415;G06F18/25;G06N3/047;G06N3/049;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多次 融合 视听 语音 识别 方法 装置 设备 存储 介质 | ||
本发明公开了一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质,本方法在视听语音识别子网络中所使用的Skip RNN相比普通的RNN改善了推理速度慢,梯度消失以及难以捕获长期依存关系等问题,采用的TCN可以解决视频帧提取特征不完善问题,采用的多模态融合注意力机制可以有效改善多模态融合问题,采用了多次模态融合来提升识别准确率。
【技术领域】
本发明属于语音识别领域,涉及一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质。
【背景技术】
语音识别是人工智能、自然语言处理和信号处理的基本问题,尤其在近十年的深度学习的勃兴中其得到了巨大的发展。目前语音识别的性能已经有了很大提升,但是在有噪声干扰的情况下,语音信号表现出极大的波动性,语音识别算法性能不尽如人意。如何提高噪声环境下语音识别系统的性能已经成为自然语言处理领域的热门问题。
视觉唇语识别技术与听觉语音识别技术的目标均是预测所说内容对应的文本信息,因此视觉唇语和听觉语音可以视为共享相同基本分布的两种异构模式。针对这个特点,多模态视听语音识别被创造性的提出。
多模态视听语音识别算法主要分为三步:提取视频和音频特征、音视频特征融合以及识别。但是在视频特征提取以及音视频特征融合中依然存在一些问题,采用普通的卷积神经网络(CNN)去提取视频特征只是单纯的将图像中的特征提取出来,并没有将视频帧关联的时序信息提取出来。在音视频特征融合中,如何赋予不同的模态以不同的权重是一个难题。一般语音识别的准确率是高于唇语识别的,如果在特征融合中被赋予了错误的权重,那么融合后的准确率比单纯语音识别准确率更低。
【发明内容】
本发明的目的在于克服上述现有技术的缺点,提供一种基于多次模态融合的视听语音识别方法、装置、设备和存储介质,解决了现有技术中存在的视频帧提取信息不完善问题和特征融合问题。
为达到上述目的,本发明采用以下技术方案予以实现:
一种基于多次模态融合的视听语音识别方法,包括以下步骤:
步骤1,将音频信号进行傅里叶变换后获得语谱图,所述语谱图乘以梅尔标度滤波器后获得语音语谱图;从原始视频中提取出原始视频特征;
步骤2,将语音语谱图输入至第一音频编码器中获得第一音频特征,将原始视频特征输入至第一视频编码器中获得第一视频特征;
步骤3,通过特征融合层融合第一音频特征和第一视频特征,获得第一融合特征;
步骤4,通过第一音频解码器对第一融合特征解码,获得语音增强语谱图;
步骤5,通过第二音频编码器处理语音增强语谱图获得音频上下文向量;通过第二视频编码器处理原始视频特征获得视频上下文向量;所述第二音频编码器和第二视频编码器各自由一层时间卷积块和两层Skip LSTM组成;
步骤6,通过注意力层融合音频上下文向量和视频上下文向量,获得第二融合特征;
步骤7,通过第二音频解码器解码处理第二融合特征,获得识别出的概率最大的字符。
本发明的进一步改进在于:
优选的,步骤1中,从原始视频中提取出原始视频特征的具体过程为:将原始视频通过ffmpeg开源工具读取成视频帧,通过dlib开源工具对视频帧进行人脸检测,将检测后的每个视频帧裁剪成120x120的包含人脸的图片,然后使用OpenCV从包含人脸的图片中裁剪出32x32大小的唇部图片,所有的唇部图片通过三维残差网络提取出原始视频特征。
优选的,步骤2中,所述第一音频编码器和第一视频编码器均由三个时间卷积块堆叠组成。
优选的,步骤3中,将第一音频特征和第一视频特征以通道层面相加后,送入全连接层得到第一融合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110092107.3/2.html,转载请声明来源钻瓜专利网。