[发明专利]一种音视频语音增强处理方法及模型在审

申请号：	202110441281.4	申请日：	2021-04-23
公开（公告）号：	CN112951258A	公开（公告）日：	2021-06-11
发明（设计）人：	陈航;杜俊;戴礼荣	申请（专利权）人：	中国科学技术大学
主分类号：	G10L21/02	分类号：	G10L21/02;G10L25/03;G10L25/30;G10L25/57
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	陈颖
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频语音增强处理方法模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种音视频语音增强处理方法及模型，方法包括：从带噪语音中提取出帧级别的音频嵌入数据；从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；将音频嵌入数据和视频嵌入数据融合处理为多模态嵌入数据；基于多模态嵌入数据和带噪语音的声学特征处理得到带噪语音的预测掩膜；基于预测掩膜和带噪语音得到增强语音。上述实现方案中，合利用音频模态和视频模态分别在低噪声和高噪声场景下的优势辅助作用，针对基于视觉语音识别的唇部嵌入在低噪声场景下鲁棒性不足的问题，使用包括音频模态和视频模态的多模态嵌入作为音视频语音增强的辅助输入，在高噪声和低噪声的环境下都提升了增强后语音的质量和可懂度。

技术领域

本发明涉及信号处理技术领域，更具体的说，是涉及一种音视频语音增强处理方法及模型。

背景技术

语音增强旨在通过抑制带噪语音中的背景噪声成分来生成具有更好语音质量和清晰度的增强语音，它常被作为各种语音输入设备的前端。音视频语音增强旨在利用与语音同步的视频信号作为辅助输入，进一步提升增强语音的语音质量和可懂度。当前，基于深度神经网络的音视频语音增强是一种主流方法。

对于基于深度神经网络的音视频语音增强模型来说，作为辅助的视频信号是以视频嵌入的形式被输入模型的。如何从原始的视频信号中提取出有用的视频嵌入，是目前音视频语音增强社区的一个研究热点，国内外有很多研究者提出了很有效的视频嵌入，例如基于视觉孤立词识别的唇部嵌入和基于视觉音素识别的唇部嵌入；上述基于视觉语音识别的唇部嵌入在高噪声环境下，确实都给语音增强模型带来了明显的性能提升，但是，在低噪声环境下，两种唇部嵌入不仅不能带来明显的性能提升，甚至还会造成性能的损失。这是由于视觉语音识别天然的不确定性造成的，即不是所有的单词/音素在视觉上都是可区分的，由此也造成视觉语音识别在低噪声场景下的鲁棒性很差。

发明内容

有鉴于此，本发明提供如下技术方案：

一种音视频语音增强处理方法，包括：

从带噪语音中提取出帧级别的音频嵌入数据；

从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据；

将所述音频嵌入数据和所述视频嵌入数据融合处理为多模态嵌入数据；

基于所述多模态嵌入数据和所述带噪语音的声学特征处理得到所述带噪语音的预测掩膜；

基于所述预测掩膜和所述带噪语音得到增强语音。

可选的，所述从带噪语音中提取出帧级别的音频嵌入数据，包括：

采用全卷积神经网络从带噪语音的音频特征中提取出帧级别的音频嵌入数据。

可选的，所述从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据，包括：

采用一层三维卷积和一个多层的残差网络从唇部区域的灰度图像序列中提取出帧级别的视频嵌入数据。