[发明专利]基于语音的口型动画合成装置、方法及可读存储介质有效
申请号: | 201810327672.1 | 申请日: | 2018-04-12 |
公开(公告)号: | CN108763190B | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 梁浩;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/08;G06T13/20;G10L13/02;G10L15/02;G10L15/16;G10L25/24;G10L25/30 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音的口型动画合成装置,包括存储器和处理器,存储器上存储有可在处理器上运行的口型动画合成程序,该程序被处理器执行时实现如下步骤:获取目标文本数据,根据发音词典获取目标文本数据中的音素特征;将音素特征输入到预先训练好的深度神经网络模型中,输出声学特征,将声学特征输入到语音合成器中输出语音数据;根据语音数据、预先训练好的张量模型以及说话人标识信息,获取口型数据;根据口型数据生成与语音数据对应的口型动画。发明还提出一种基于语音的口型动画合成方法以及一种计算机可读存储介质。本发明解决了现有技术中无法展示与合成的语音数据匹配的、并具有真实感的口型动画的技术问题。 | ||
搜索关键词: | 口型动画 语音数据 合成装置 获取目标 口型数据 声学特征 文本数据 音素特征 存储器 语音 处理器 计算机可读存储介质 合成 可读存储介质 神经网络模型 处理器执行 语音合成器 标识信息 发音词典 合成程序 输出语音 真实感 匹配 存储 输出 展示 | ||
【主权项】:
1.一种基于语音的口型动画合成装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的口型动画合成程序,所述口型动画合成程序被所述处理器执行时实现如下步骤:获取目标文本数据,根据发音词典获取所述目标文本数据中的音素特征;将所述音素特征输入到预先训练好的深度神经网络模型中,输出与所述音素特征对应的声学特征,所述声学特征包括梅尔倒谱系数MFCC特征、发音时长和发音基频;将所述声学特征输入到语音合成器中,输出与所述目标文本数据对应的语音数据;根据所述语音数据、预先训练好的张量模型以及预先设置的说话人标识信息,获取与所述语音数据和所述说话人标识信息对应的口型数据,所述张量模型表达语音数据的发音特征与口型数据的口型位置特征之间的相关关系;根据所述口型数据生成与所述语音数据对应的口型动画,以供在播放所述语音数据的同时,展示所述口型动画。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810327672.1/,转载请声明来源钻瓜专利网。