[发明专利]一种音视频语音增强处理方法及模型在审
申请号: | 202110441281.4 | 申请日: | 2021-04-23 |
公开(公告)号: | CN112951258A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 陈航;杜俊;戴礼荣 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/03;G10L25/30;G10L25/57 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈颖 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 语音 增强 处理 方法 模型 | ||
本申请公开了一种音视频语音增强处理方法及模型,方法包括:从带噪语音中提取出帧级别的音频嵌入数据;从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据;基于多模态嵌入数据和带噪语音的声学特征处理得到带噪语音的预测掩膜;基于预测掩膜和带噪语音得到增强语音。上述实现方案中,合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用,针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题,使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入,在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。
技术领域
本发明涉及信号处理技术领域,更具体的说,是涉及一种音视频语音增强处理方法及模型。
背景技术
语音增强旨在通过抑制带噪语音中的背景噪声成分来生成具有更好语音质量和清晰度的增强语音,它常被作为各种语音输入设备的前端。音视频语音增强旨在利用与语音同步的视频信号作为辅助输入,进一步提升增强语音的语音质量和可懂度。当前,基于深度神经网络的音视频语音增强是一种主流方法。
对于基于深度神经网络的音视频语音增强模型来说,作为辅助的视频信号是以视频嵌入的形式被输入模型的。如何从原始的视频信号中提取出有用的视频嵌入,是目前音视频语音增强社区的一个研究热点,国内外有很多研究者提出了很有效的视频嵌入,例如基于视觉孤立词识别的唇部嵌入和基于视觉音素识别的唇部嵌入;上述基于视觉语音识别的唇部嵌入在高噪声环境下,确实都给语音增强模型带来了明显的性能提升,但是,在低噪声环境下,两种唇部嵌入不仅不能带来明显的性能提升,甚至还会造成性能的损失。这是由于视觉语音识别天然的不确定性造成的,即不是所有的单词/音素在视觉上都是可区分的,由此也造成视觉语音识别在低噪声场景下的鲁棒性很差。
发明内容
有鉴于此,本发明提供如下技术方案:
一种音视频语音增强处理方法,包括:
从带噪语音中提取出帧级别的音频嵌入数据;
从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据;
将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据;
基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜;
基于所述预测掩膜和所述带噪语音得到增强语音。
可选的,所述从带噪语音中提取出帧级别的音频嵌入数据,包括:
采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。
可选的,所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据,包括:
采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。
可选的,所述将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据,包括:
将所述音频嵌入数据和所述视频嵌入数据在通道维度上进行拼接,得到嵌入拼接数据;
采用2层的双向门控循环单元融合包含音频模态和视频模态的所述嵌入拼接数据,得到多模态嵌入数据。
可选的,所述基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜,包括:
将分别经过一维卷积残差块处理的所述多模态嵌入数据和所述带噪语音的对数功率谱特征基于通道维度进行拼接处理,得到特征拼接数据;
依次采用一维卷积残差快和激活函数层对所述特征拼接数据进行处理,得到所述带噪语音的预测掩膜。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441281.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:三维存储器件
- 下一篇:一种用于大型箱梁制作车间的悬臂、除尘设备