[发明专利]唇读模型的生成方法、装置、设备及存储介质在审
申请号: | 201910882702.X | 申请日: | 2019-09-18 |
公开(公告)号: | CN110765868A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 王义文;郑权;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L21/10;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唇读 视频训练 处理器 唇部 样本 图像序列 训练样本 音频特征 音视频分离 存储介质 面部图像 模型结合 模型解析 序列输入 语音音频 鲁棒性 构建 收敛 说话 | ||
本发明提供一种唇读模型的生成方法、装置、设备及存储介质,即所述处理器将所述视频训练样本进行音视频分离,生成视频训练样本和音频训练样本;所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练;将收敛后的两个唇读模型进行连接,生成目标唇读模型。本发明从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型,再将两个方向的唇读模型结合,得到最终的唇读模型;提升了唇读模型的鲁棒性,提升了唇读模型解析的准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种唇读模型的生成方法、装置、设备及计算机可读存储介质。
背景技术
唇读(lip—reading/speech—reading),是指可以通过观察说话者的口型变化,“读出”或“部分读出”其所说的内容。唇读研究的目的是利用视觉信道信息补充听觉信道信息,提高计算机系统的理解力。现有的唇读模型主要是依靠视频图像中的唇部形态变化、动作来解析唇语,或者通过音频数据进行解析,很容易受到噪声的干扰,导致唇读模型的训练效果较差,模型训练效率低下。
发明内容
本发明的主要目的在于提供一种唇读模型的生成方法、装置、设备及计算机可读存储介质,旨在解决现有唇读模型的训练效果差以及训练效率低下的技术问题。
为实现上述目的,本发明提供一种唇读模型的生成方法,所述唇读模型的生成方法应用于唇读模型的生成系统,所述生成系统包括处理器和存储模块,所述唇读模型的生成方法包括以下步骤:
所述处理器在接收到模型生成指令时,在所述存储模块中获取视频训练样本,将所述视频训练样本进行音视频分离,生成视频训练样本和音频训练样本;
所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,并在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型;
所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练,以得到收敛的第一唇读模型以及第二唇读模型;
所述处理器将所述第一唇读模型以及第二唇读模型进行连接,生成目标唇读模型。
可选地,所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,并在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型的步骤包括:
所述处理器对所述视频训练样本进行人脸图像识别,从识别出的人脸图像中切割出嘴唇图像区域,作为感兴趣区域ROI,并提取出所述视频训练样本中包含所述ROI的图像序列信号,作为唇部图像序列;
所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本,通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本,并对所述Mel频谱样本进行带谱分析,得到梅尔频率倒谱系数MFCC特征,作为所述音频特征序列;
所述处理器在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型。
可选地,所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本,通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本,并对所述Mel频谱样本进行带谱分析,得到梅尔频率倒谱系数MFCC特征,作为所述音频特征序列的步骤之前,还包括:
所述处理器对所述音频训练样本进行分帧,并将分帧后的音频训练样本输入高通滤波器进行预加重处理。
可选地,所述处理器对所述音频训练样本进行分帧,并将分帧后的音频训练样本输入高通滤波器进行预加重处理的步骤之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910882702.X/2.html,转载请声明来源钻瓜专利网。