[发明专利]一种由唇部图像特征到语音编码参数的转换方法有效

专利信息
申请号: 201810215220.4 申请日: 2018-03-15
公开(公告)号: CN108538283B 公开(公告)日: 2020-06-26
发明(设计)人: 贾振堂 申请(专利权)人: 上海电力学院
主分类号: G10L13/08 分类号: G10L13/08;G10L13/027;G10L25/57;G10L25/30;G06N3/08;G06N3/04;G06K9/62;G06K9/46;G06K9/00
代理公司: 上海科盛知识产权代理有限公司 31225 代理人: 赵志远
地址: 200090 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 唇部 图像 特征 语音 编码 参数 转换 方法
【权利要求书】:

1.一种由唇部图像特征到语音编码参数的转换方法,其特征在于,包括以下步骤:

1)构建语音编码参数转换器,包括输入缓存和训练后的预测器,按照时间先后顺序依次接收唇部特征向量,并将其存储在转换器的输入缓存中;

2)每隔一定的时间,将当前时刻缓存的k个最新的唇部特征向量作为一个短时向量序列送入预测器,并获取一个预测结果,该预测结果为一个语音帧的编码参数向量,所述的预测器采用人工神经网络,所述的人工神经网络由3个LSTM层和2个全连接层依次连接组成,所述的预测器的训练方法具体包括以下步骤:

21)同步采集视频和语音:通过视频和音频采集设备,同步采集视频和对应的语音数据,并从视频中提取唇部图像,包括整个嘴部以及以嘴为中心的一个矩形区域,获取由一系列唇部图像I1,I2,...,In组成的唇部视频,所述的语音数据为语音样值序列S1,S2,...,SM,并使唇部图像和语音数据保持时间对应关系;

22)获取任意时刻t的唇部特征向量短时序列FIS t,对唇部视频中的每一帧唇部图像I计算其图像特征向量FI,获得一系列唇部特征向量FI1,FI2,...,FIn,对给定的任意时刻t,提取k个连续的唇部特征向量作为t时刻的唇部特征向量短时序列FIS t=(FIt-k+1,...,FIt-2,Ft-1,FIt),其中,FIt为时间上最接近t的一个唇部特征向量,k为指定参数,获取唇部特征向量具体包括以下步骤:

对于每帧唇部图像,提取围绕嘴唇的内边缘和外边缘共20个特征点,获取这20个特征点的中心坐标,并将各个点的坐标都减去该中心坐标,得到40个坐标数据,对40个坐标值进行归一化处理,最终获取一个唇部特征向量;

23)获取任意时刻t的语音帧编码参数向量FAt,对任意时刻t,提取L个连续语音采样值作为一个语音帧At=(St-L+1,...,St-2,St-1,St),其中St是时间上最接近t的一个语音采样,采用语音分析算法计算该语音帧的编码参数,即为t时刻的语音帧编码参数向量FAt,其中,L为固定参数;

24)采用样本训练预测器:任取一时刻t,根据步骤22)和23)得到的训练样本对{FIS t,At}作为预测器的输入和期望输出,并在有效范围内随机选取多个t值,依据预测器的类型,对预测器进行训练,所述的语音分析算法为LPC10e算法,所述的编码参数向量为LPC参数,包括1个前半帧清浊音标志、1个后半帧清浊音标志、1个基音周期、1个增益和10个反射系数;

3)语音编码参数转换器输出预测结果。

2.根据权利要求1所述的一种由唇部图像特征到语音编码参数的转换方法,其特征在于,所述的步骤22)中,采用对唇部特征向量进行时间插值使其帧率加倍,或采用高速的图像采集设备进行采集的方式提高唇部特征向量的帧率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海电力学院,未经上海电力学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810215220.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top