[发明专利]一种基于多尺度视频特征融合的语音唇读方法及系统有效
申请号: | 202110716761.7 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113450824B | 公开(公告)日: | 2022-08-16 |
发明(设计)人: | 熊盛武;曾瑞;陈燚雷 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L25/24 | 分类号: | G10L25/24;G10L19/16;G06V40/20;G06V40/16;G06V20/40;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 视频 特征 融合 语音 方法 系统 | ||
本发明提供了一种基于多尺度视频特征融合的语音唇读方法及系统,其中,基于多尺度视频特征融合的语音唇读方法,步骤如下:首先将输入视频的视频帧和语音分离,视频帧用不同大小的滑动窗口划分为多个尺度并构造出n个时间金字塔,再利用3D卷积提取各时间金字塔内各时间尺度的视频特征之后,将视频特征通过多尺度特征融合模块,得到一个固定维度的中间向量,然后再通过使用解码器将中间特征向量合成对应语音的Mel频谱图,最后将得到的Mel谱通过声码器合成语音。本发明主要应用于语音唇读,大大改善了语音合成的效果。
技术领域
本发明涉及多媒体和人工智能领域,尤其涉及一种基于多尺度视频特征融合的语音唇读方法及系统。
背景技术
语音唇读任务由唇读任务衍生而来,因为人们发现,语音往往比文字更具表现力。所以语音唇读领域在前端进行特征提取时所存在的问题也有一部分和唇读任务是相同的,但又因为语音唇读这一任务有合成语音的需要,那么在后端进行语音合成时,也会遇到一些语音合成领域会遇到的问题。
Heiga Zen等人将用于唇读任务和Text-To-Speech任务(文字到语音)的模型相结合的方法来生成语音。虽然对语言感知任务来说,音频信息包含的信息量更为丰富,但研究表明,利用视觉信息能够增强语音识别的精确度和鲁棒性,所以声音和视觉之间是有很强大的相关性的,因此,Abe Davis等人提出了利用视频来重建语音信号的方法。Ephrat等人将语音重建视为一个使用神经网络的回归问题,首次提出了音素和视素语义对应的问题。Akbari等人试图利用神经网络重建自然的语音,该网络以说话者的脸部区域为输入,并由一个预训练好的自动编码器绘制谱图,最后将谱图转化为语音。
本申请发明人在实施本发明的过程中,发现现有技术中存在如下技术问题:
现有技术中的上述方法都有一个主要的限制:音谱图和人工设计的特征中都不包含语音信号的所有信息。Vougioukas等人为了解决了这个问题,提出了一种端到端模型,该模型可以使用生成对抗网络直接合成视频中的音频波形。然而由于他们对时域信号进行的直接估计,重建的语音难免会存在比较明显的人工合成痕迹。
由此可知,现有技术中的方法存在语音合成效果不佳的技术问题。
发明内容
本发明提出一种基于多尺度视频特征融合的语音唇读方法及系统,用于解决或者至少部分解决现有技术中的方法存在语音合成效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于多尺度视频特征融合的语音唇读方法,包括:
S1:获取大量的说话人说话视频数据集;
S2:从获取的视频数据集中提取出视频帧和语音数据;
S3:从语音数据中提取出Mel谱;
S4:构建基于多尺度视频特征融合的语音唇读模型,其中,语音唇读模型包括编码器、解码器以及声码器,编码器包括多时间尺度视频划分模块、位置编码模块和多尺度特征融合模块,多时间尺度视频划分模块用于通过不同窗口大小的滑动窗口来构造时间金字塔捕获时间维度的特征,得到不同尺度的特征向量,位置编码模块用于将每个视频片段的位置信息引入到不同尺度的特征向量中,多尺度特征融合模块用于采用局部融合和全局融合结合的方式对带有位置信息的不同尺度的特征向量进行融合,得到融合后的时空向量;解码器用于根据融合后的时空向量重建出语音Mel谱,声码器用于将得到的代表语音的Mel谱转化为语音;
S5:将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练,将解码器重建出的语音Mel谱和步骤S3中提取出的Mel谱之间的MSE损失最小化为目标,得到训练好的语音唇读模型;
S6:利用训练好的语音唇读模型对输入的视频进行语音识别。
在一种实施方式中,在将步骤S2中提取出的视频帧作为训练数据,对语音唇读模型进行训练之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110716761.7/2.html,转载请声明来源钻瓜专利网。