[发明专利]生成虚拟人物视频的方法、装置、设备和计算机存储介质在审
申请号: | 202010962994.0 | 申请日: | 2020-09-14 |
公开(公告)号: | CN112233210A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 李彤辉;胡天舒;马明明;洪智滨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40;G10L25/48;G10L25/78 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 虚拟 人物 视频 方法 装置 设备 计算机 存储 介质 | ||
1.一种生成虚拟人物视频的方法,包括:
将语音按照预设时长进行切分,得到n个语音段,所述n为正整数;
按照时间顺序,分别对各语音段进行静音识别和虚拟人物预测得到各语音段对应的图像帧序列,并将各语音段以及语音段对应的图像帧序列发送至终端的队列,以便所述终端逐一从所述队列中获取语音段及语音段对应的图像帧序列进行合成,并播放合成的虚拟人物视频。
2.根据权利要求1所述的方法,其中,所述切分、所述静音识别、所述虚拟人物预测和所述发送的处理由服务器端执行;
所述语音为所述服务器端对文本进行语音合成后得到的语音,或者,在语音库中查询得到的文本对应的语音。
3.根据权利要求1所述的方法,其中,所述切分、所述静音识别、所述虚拟人物预测和所述发送的处理由所述终端执行;
所述语音为服务器端对文本进行语音合成后发送给所述终端的语音,或者,所述终端向服务器端的语音库查询得到的文本对应的语音。
4.根据权利要求1所述的方法,其中,对语音段进行静音识别和虚拟人物预测得到语音段对应的图像帧序列包括:
识别所述语音段中的静音部分和语音部分;
对所述语音部分进行虚拟人物预测,所述虚拟人物预测包括动作预测和/或唇形预测,得到所述语音部分对应的动作序列和唇形图像序列;
将虚拟人物底板图像、所述语音部分对应的动作序列和唇形图像序列按照所述语音段中对应的时间点进行合成,得到所述语音段对应的图像帧序列。
5.根据权利要求4所述的方法,其中,所述将虚拟人物底板图像、所述语音部分对应的动作序列和唇形图像序列按照所述语音段中对应的时间点进行合成包括:
对于语音段中静音部分的各时间点采用所述虚拟人物底板图像分别作为各时间点的图像帧;
对于语音段中语音部分的各时间点,将各时间点对应的动作和唇形图像合成至所述虚拟人物底板图像分别作为各时间点的图像帧;
按照各时间点的顺序,由各时间点的图像帧构成所述语音段对应的图像帧序列。
6.根据权利要求1所述的方法,在针对语音段进行虚拟人物预测后,还包括:
保存针对该语音段进行虚拟人物预测的状态数据,以用于下一语音段进行虚拟人物预测的初始输入,所述状态数据包括该语音段所包含最后一个字的序号以及该语音段对应的图像帧序列的最后一帧。
7.一种生成虚拟人物视频的装置,包括:
语音切分模块,用于将语音按照预设时长进行切分,得到n个语音段,所述n为正整数;
图像预测模块,用于按照时间顺序,分别对各语音段进行静音识别和虚拟人物预测得到各语音段对应的图像帧序列,并将各语音段以及语音段对应的图像帧序列发送至终端的队列,以便所述终端逐一从所述队列中获取语音段及语音段对应的图像帧序列进行合成,并播放合成的虚拟人物视频。
8.根据权利要求7所述的装置,所述装置设置于服务器端;
所述语音为所述服务器端对文本进行语音合成后得到的语音,或者,在语音库中查询得到的文本对应的语音。
9.根据权利要求7所述的装置,所述装置设置于终端;
所述语音为服务器端对文本进行语音合成后发送给所述终端的语音,或者,所述终端向服务器端的语音库查询得到的文本对应的语音;
所述装置还包括:
视频合成模块,用于逐一从所述队列中获取语音段及语音段对应的图像帧序列进行合成;
视频播放模块,用于播放所述视频合成模块合成的虚拟人物视频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010962994.0/1.html,转载请声明来源钻瓜专利网。