[发明专利]唇语合成方法、装置、电子设备及存储介质有效
申请号: | 201810688117.1 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108831463B | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 庄晓滨;戴长军;吴丹;林绪虹;闫理 | 申请(专利权)人: | 广州方硅信息技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L17/00;G10L17/18;G10L25/24 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇;王宝筠 |
地址: | 510000 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 合成 方法 装置 电子设备 存储 介质 | ||
本发明实施例公开了一种唇语合成方法、装置、电子设备及存储介质,首先进行自动语音识别,然后根据语音识别结果进行音素识别,确定音素在语音信号中的时间区间,实现了将原始语音信号转换成带有周期信息(即音素在语音信号中的发音时长)的音素,最后通过预置音素与嘴型的对应关系合成唇语,通过该方法合成的唇语,不仅唇语的动态节奏与语音的节奏的匹配度高,嘴型的准确率也较高,在实现了唇语自动合成的同时,实现了高逼真的唇语合成。
技术领域
本发明涉及语音技术领域,更具体地说,涉及一种唇语合成方法、装置、电子设备及存储介质。
背景技术
唇语合成技术是一种利用语音信息合成出人表达出该语音时嘴唇动作(即嘴型)的技术。根据语音对应的嘴型,可以生成各种唇语动画。
传统的唇语合成方法通过纯人工标定的方法确定语音对应的嘴型,这需要标定人具有很强的专业知识,不仅工作量大,且通用性低。
发明内容
本发明的目的是提供一种唇语合成方法、装置、电子设备及存储介质,以克服现有的唇语合成技术工作量大,通用性低的问题。
为实现上述目的,本发明提供了如下技术方案:
一种唇语合成方法,包括:
对语音信号进行语音识别,得到语音识别结果,所述语音识别结果中包括识别到的发音,以及所述发音在所述语音信号中的第一时间区间;
依据所述发音对所述第一时间区间内的语音信号进行音素识别;
依据预设的音素与嘴型的对应关系,获取识别到的每个音素对应的嘴型。
上述方法,优选的,所述对语音信号进行语音识别,包括:
将语音信号分为若干语音信号帧,并提取每一语音信号帧的梅尔频率倒谱系数MFCC特征向量;
利用预先训练好的神经网络对所获取的若干MFCC特征向量进行处理,得到所述语音识别结果。
上述方法,优选的,所述将语音信号分为若干语音信号帧,并提取每一语音信号帧的MFCC特征向量,包括:
对所述语音信号进行预加重;
将预加重后的语音信号分为若干个语音信号帧,并对每个所述语音信号帧做短时傅里叶变换,得每个所述语音信号帧的频谱;
在所述语音信号帧的频谱中提取K个MFCC,并根据所述K个MFCC系数构建所述语音信号帧对应的M维MFCC特征向量;
对所述M维MFCC特征向量进行归一化,使得所述M维MFCC特征向量在每个维度上均服从相同的分布。
上述方法,优选的,所述依据所述发音对所述第一时间区间内的语音信号进行音素识别,包括:
获取所述第一时间区间内的语音信号帧的MFCC特征向量;
将获取的MFCC特征向量输入预先训练好的隐马尔科夫模型,得到每个语音信号帧的音素识别结果;其中,第一语音信号帧对应的音素识别结果包括:所述第一语音信号帧被识别为所述发音中的各个音素的概率;
将最大概率对应的音素确定为所述第一语音信号帧的音素识别结果。
上述方法,优选的,所述神经网络包括:
三层卷积层,与所述三层卷积层连接的三个双向门控循环单元,以及与所述双向门控循环单元连接的一层全连接层;
所述全连接层的输出单元的个数为不带声调的中文发音的个数。
上述方法,优选的,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州方硅信息技术有限公司,未经广州方硅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810688117.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车载语音识别方法及装置
- 下一篇:基于语音控制的眼罩和基于语音控制眼罩的方法