[发明专利]数据处理方法、装置及系统在审
申请号: | 201711443989.3 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108174123A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 张引;吴烁 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | H04N5/265 | 分类号: | H04N5/265;G06F17/27;G06K9/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 巴翠昆;王宝筠 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种数据处理方法、装置系统,包括:获取用户语音数据以及用户文字数据;其中,所述用户语音数据与所述用户文字数据对应;确定与用户文字数据对应的唇形图像集;调整所述唇形图像集获得与人脸图像对应的唇形图像集,并合成人脸图像对应的唇形视频数据;合成用户语音数据和唇形视频数据,获得用户视频数据。本申请可以基于用户语音数据,并结合人脸图像,在人脸图像上显示用于语音数据,以展示出以人脸图像展示用户语音数据的效果。这样可以丰富即时通讯软件的交流方式。 1 | ||
搜索关键词: | 用户语音数据 人脸图像 唇形图像 文字数据 视频数据 语音数据 数据处理 唇形 即时通讯软件 装置及系统 合成人脸 合成用户 交流方式 用户视频 装置系统 申请 展示 图像 | ||
获取用户语音数据以及用户文字数据;其中,所述用户语音数据与所述用户文字数据对应;
确定与用户文字数据对应的唇形图像集;
调整所述唇形图像集获得与人脸图像对应的唇形图像集,并合成人脸图像对应的唇形视频数据;
合成用户语音数据和唇形视频数据,获得用户视频数据。
2.如权利要求1所述的方法,其特征在于,所述获取用户语音数据以及用户文字数据,包括:响应于用户输入的文字数据获得用户文字数据,基于文字数据转换为语音数据获得用户语音数据;或者,
响应于用户输入的语音数据获得用户语音数据,基于语音数据转换为文字数据获得用户文字数据。
3.如权利要求1所述的方法,其特征在于,所述确定与用户文字数据对应的唇形图像集,包括:对用户文字数据进行语义分析并进行分词,获得多个分词以及对应的多个分词属性信息;
分别确定与多个分词对应的多个唇形图像;
基于分词属性信息对对应的唇形图像进行调整;
多个调整后的唇形图像组成唇形图像集。
4.如权利要求1所述的方法,其特征在于,所述分别确定与多个分词对应的多个唇形图像,包括:在按韵母划分的多个唇形图像中,确定与分词韵母对应的唇形图像;
在按声母和韵母划分的多个唇形图像中,确定与分词的声母和韵母对应的唇形图像;
将声母和韵母输入至唇形图像模型,获得唇形图像模型输出的唇形图像。
5.如权利要求1所述的方法,其特征在于,所述调整所述唇形图像集获得与人脸图像对应的唇形图像集,包括:调整人脸图像中的唇形特征,以使唇形特征与唇形图像中的唇形特征匹配;
将多幅调整后的人脸图像,确定为与人脸图像对应的唇形图像集。
6.如权利要求1所述的方法,其特征在于,所述合成用户语音数据和唇形视频数据,获得用户视频数据,包括:确定用户语音数据的编码参数,获得编码后的语音文件;
确定唇形视频数据的编码参数,获得编码后的视频文件;
对编码后的语音文件和编码后的视频文件进行音视频同步,获得用户视频数据。
7.一种数据处理装置,其特征在于,包括:获取数据单元,用于获取用户语音数据以及用户文字数据;其中,所述用户语音数据与所述用户文字数据对应;
确定图像集单元,用于确定与用户文字数据对应的唇形图像集;
调整单元,用于调整所述唇形图像集获得与人脸图像对应的唇形图像集,并合成人脸图像对应的唇形视频数据;
合成单元,用于合成用户语音数据和唇形视频数据,获得用户视频数据。
8.如权利要求7所述的装置,其特征在于,所述确定图像集单元,包括:分词单元,用于对用户文字数据进行语义分析并进行分词,获得多个分词以及对应的多个分词属性信息;
确定唇形图像单元,用于分别确定与多个分词对应的多个唇形图像;
调整唇形图像单元,用于基于分词属性信息对对应的唇形图像进行调整;
组成单元,用于多个调整后的唇形图像组成唇形图像集。
9.如权利要求7所述的装置,其特征在于,所述调整单元包括:调整单元,用于调整人脸图像中的唇形特征,以使唇形特征与唇形图像中的唇形特征匹配;
确定单元,用于将多幅调整后的人脸图像,确定为与人脸图像对应的唇形图像集。
10.一种数据处理系统,其特征在于,包括:发送终端,用于确定需使用人脸图像并发送人脸图像至服务器;发送用户语音数据或用户文字数据至服务器;
服务器,用于接收并存储人脸图像,获取用户语音数据以及用户文字数据;其中,所述用户语音数据与所述用户文字数据对应;确定与用户文字数据对应的唇形图像集;调整所述唇形图像集获得与人脸图像对应的唇形图像集,并合成人脸图像对应的唇形视频数据;合成用户语音数据和唇形视频数据,获得用户视频数据;发送用户视频数据至接收终端;
接收终端,用于接收并显示用户视频数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711443989.3/,转载请声明来源钻瓜专利网。