[发明专利]一种由唇部视频直接生成语音的方法有效

申请号：	201810214692.8	申请日：	2018-03-15
公开（公告）号：	CN108538282B	公开（公告）日：	2021-10-08
发明（设计）人：	贾振堂	申请（专利权）人：	上海电力学院
主分类号：	G10L13/08	分类号：	G10L13/08;G10L13/027;G10L25/57;G06K9/46;G06K9/00
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	赵志远
地址：	200090 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种唇部视频直接生成语音方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种由唇部视频直接生成语音的方法，包括以下步骤：1)获取唇部视频：采用摄像装置采集包含嘴唇的视频，得到嘴唇部分的视频；2)获取唇部部特征向量：对嘴唇部分的视频中每一帧图像，围绕嘴唇的内唇边缘和外唇边缘提取多个用以描述嘴唇形状的特征点，得到当前帧图像的唇部特征向量，以此获取一系列的唇部特征向量；3)唇音转换：将得到的唇部特征向量输入到唇音转换器中，每间隔一定的时间，唇音转换器将最新缓存的k个唇部特征向量进行一次语音帧参数向量的转换；4)语音合成：根据语音帧参数向量进行语音合成，还原音频采样并输出语音。与现有技术相比，本发明具有无需中间文字、转换效率高、便于训练等优点。

技术领域

本发明涉及计算机视觉、数字图像处理、微电子技术和残疾人辅助技术领域，尤其是涉及一种由唇部视频直接生成语音的方法。

背景技术

本发明与唇语识别领域相关。“唇语识别”是依据嘴唇视频生成对应的文字表达，以下是目前能查到的最相关的技术方案信息：

(1)CN107122646A，发明名称：一种实现唇语解锁的方法。其原理是将实时采集的嘴唇特征与预先存储的嘴唇特征比对，用以确定身份，但并不能输出语音。

(2)CN107437019A，发明名称：唇语识别的身份验证方法和装置。其原理与(1)类似，差异在于采用了3D图像用以确定身份。

(3)CN106504751A，发明名称：自适应唇语交互方法以及交互装置。其原理依然是将嘴唇识别成文字，然后基于文字进行指令交互。

(4)LipNet，是牛津大学联合DeepMind发布的深度学习唇语识别算法，其目的也是将嘴唇识别成文字，与之前技术相比，识别率更高一些。

(5)CN107610703A，发明名称：一种基于唇语采集和语音拾取的多语言翻译器。它利用了现有的语音识别模块来识别成文字，然后再利用现有的语音合成模块将文字转换成语音。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种由唇部视频直接生成语音的方法。

本发明的目的可以通过以下技术方案来实现：