[发明专利]唇读模型的生成方法、装置、设备及存储介质在审
申请号: | 201910882702.X | 申请日: | 2019-09-18 |
公开(公告)号: | CN110765868A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 王义文;郑权;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L21/10;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 唇读 视频训练 处理器 唇部 样本 图像序列 训练样本 音频特征 音视频分离 存储介质 面部图像 模型结合 模型解析 序列输入 语音音频 鲁棒性 构建 收敛 说话 | ||
1.一种唇读模型的生成方法,其特征在于,所述唇读模型的生成方法应用于唇读模型的生成系统,所述生成系统包括处理器和存储模块,所述唇读模型的生成方法包括以下步骤:
所述处理器在接收到模型生成指令时,在所述存储模块中获取视频训练样本,将所述视频训练样本进行音视频分离,生成视频训练样本和音频训练样本;
所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,并在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型;
所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练,以得到收敛的第一唇读模型以及第二唇读模型;
所述处理器将所述第一唇读模型以及第二唇读模型进行连接,生成目标唇读模型。
2.如权利要求1所述的唇读模型的生成方法,其特征在于,所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,并在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型的步骤包括:
所述处理器对所述视频训练样本进行人脸图像识别,从识别出的人脸图像中切割出嘴唇图像区域,作为感兴趣区域ROI,并提取出所述视频训练样本中包含所述ROI的图像序列信号,作为唇部图像序列;
所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本,通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本,并对所述Mel频谱样本进行带谱分析,得到梅尔频率倒谱系数MFCC特征,作为所述音频特征序列;
所述处理器在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型。
3.如权利要求2所述的唇读模型的生成方法,其特征在于,所述处理器对所述音频训练样本进行快速傅里叶变换得到对应的频谱样本,通过Mel滤波器组得到所述频谱样本对应的Mel频谱样本,并对所述Mel频谱样本进行带谱分析,得到梅尔频率倒谱系数MFCC特征,作为所述音频特征序列的步骤之前,还包括:
所述处理器对所述音频训练样本进行分帧,并将分帧后的音频训练样本输入高通滤波器进行预加重处理。
4.如权利要求3所述的唇读模型的生成方法,其特征在于,所述处理器对所述音频训练样本进行分帧,并将分帧后的音频训练样本输入高通滤波器进行预加重处理的步骤之后,还包括:
所述处理器将所述预加重处理后的音频训练样本对应的每帧音频信号与汉明窗相乘,以对预加重处理后的音频训练样本进行加窗处理。
5.如权利要求1所述的唇读模型的生成方法,其特征在于,所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练,以得到收敛的第一唇读模型以及第二唇读模型的步骤具体包括:
所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理,以得到收敛的第一唇读模型;
所述处理器将所述音频特征序列输入至第二待训练唇读模型,以根据第二卷积参数将所述第二待训练唇读模型进行卷积、归一化以及池化处理,以得到收敛的第二唇读模型。
6.如权利要求5所述的唇读模型的生成方法,其特征在于,所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化以及池化处理,以得到收敛的第一唇读模型的步骤具体包括:
所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,以根据第一卷积参数将所述第一待训练唇读模型进行卷积、归一化处理;
所述处理器在归一化后的第一待训练唇读模型前向传播时,进入所述归一化后的第一待训练唇读模型的Dropout层,以使所述归一化后的第一待训练唇读模型中的预设个数的神经元以预设概率停止工作,减小所述第一待训练唇读模型的过拟合;
所述处理器将减小过拟合后的第一待训练唇读模型进行池化处理,以得到收敛的第一唇读模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910882702.X/1.html,转载请声明来源钻瓜专利网。