[发明专利]唇读模型的生成方法、装置、设备及存储介质在审
申请号: | 201910882702.X | 申请日: | 2019-09-18 |
公开(公告)号: | CN110765868A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 王义文;郑权;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G10L21/10;G10L25/18;G10L25/24;G10L25/30 |
代理公司: | 44287 深圳市世纪恒程知识产权代理事务所 | 代理人: | 胡海国 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种唇读模型的生成方法、装置、设备及存储介质,即所述处理器将所述视频训练样本进行音视频分离,生成视频训练样本和音频训练样本;所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练;将收敛后的两个唇读模型进行连接,生成目标唇读模型。本发明从说话者面部图像中的唇部形态和语音音频两个方向分别构建唇读模型,再将两个方向的唇读模型结合,得到最终的唇读模型;提升了唇读模型的鲁棒性,提升了唇读模型解析的准确性。 | ||
搜索关键词: | 唇读 视频训练 处理器 唇部 样本 图像序列 训练样本 音频特征 音视频分离 存储介质 面部图像 模型结合 模型解析 序列输入 语音音频 鲁棒性 构建 收敛 说话 | ||
【主权项】:
1.一种唇读模型的生成方法,其特征在于,所述唇读模型的生成方法应用于唇读模型的生成系统,所述生成系统包括处理器和存储模块,所述唇读模型的生成方法包括以下步骤:/n所述处理器在接收到模型生成指令时,在所述存储模块中获取视频训练样本,将所述视频训练样本进行音视频分离,生成视频训练样本和音频训练样本;/n所述处理器提取出所述视频训练样本中的唇部图像序列以及所述音频训练样本中的音频特征序列,并在所述存储模块中获取待训练唇读模型,分别作为第一待训练唇读模型以及第二待训练唇读模型;/n所述处理器将所述唇部图像序列输入至所述第一待训练唇读模型,并将所述音频特征序列输入至第二待训练唇读模型中分别进行训练,以得到收敛的第一唇读模型以及第二唇读模型;/n所述处理器将所述第一唇读模型以及第二唇读模型进行连接,生成目标唇读模型。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910882702.X/,转载请声明来源钻瓜专利网。