[发明专利]一种在音箱上实时显示表情图像的方法、系统及装置有效
申请号: | 202011114454.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112015945B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈玮 | 申请(专利权)人: | 汉桑(南京)科技有限公司 |
主分类号: | G06F16/64 | 分类号: | G06F16/64;G06F16/683 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 211106 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音箱 实时 显示 表情 图像 方法 系统 装置 | ||
1.一种在音箱上实时显示表情图像的方法,所述方法包括:
获取预设图像以及用户输入的风格信息;所述风格信息包括与歌手的表情风格相关的信息;
获取播放设备播放的音乐;所述音乐包括语音信息和/或旋律信息;
基于所述风格信息对构建模型加载与所述风格信息对应的参数包;
所述构建模型加载参数包后,基于所述音乐,通过所述构建模型确定表情特征序列;所述表情特征序列与所述参数包对应;
基于所述表情特征序列和所述预设图像,通过合成模型生成表情图像序列;所述合成模型用于合成表情图像序列;
通过显示装置显示所述表情图像序列;
其中,
所述构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层;所述语音特征嵌入层基于所述音乐的所述语音信息确定语音特征序列;所述旋律特征嵌入层基于所述音乐的所述旋律信息确定旋律特征序列;所述表情特征生成层包括Seq2Seq模型,用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。
2.根据权利要求1所述的方法,其特征在于,所述构建模型通过如下方法获得:
获取与所述风格信息对应的训练集;所述训练集至少包括训练歌曲和样本表情图像;
将所述训练集输入初始构建模型,以与所述风格信息对应的表情特征标签序列为标签,训练初始构建模型,获得训练好的构建模型;
其中,所述初始构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层;所述表情特征标签序列通过对与所述风格信息对应的样本表情图像进行关键点提取获得。
3.根据权利要求1所述的方法,其特征在于,所述合成模型通过如下方法获得:
获取样本训练集;所述样本训练集包括样本表情特征序列、样本表情图像序列以及样本预设图像;
将所述样本训练集输入初始合成模型,以样本表情图像序列为标签,训练初始合成模型,获得训练好的合成模型;
其中,所述样本表情特征序列通过对所述样本表情图像序列提取关键点获得。
4.根据权利要求1所述的方法,其特征在于,所述播放设备为音箱,所述显示装置包括以下至少一种:
所述音箱上的显示屏;
所述音箱上的投影单元,所述投影单元用于将图像进行投影。
5.一种在音箱上实时显示表情图像的系统,所述系统包括:
第一获取模块,用于获取预设图像以及用户输入的风格信息;所述风格信息包括与歌手的表情风格相关的信息;
第二获取模块,用于获取播放设备播放的音乐;所述音乐包括语音信息和/或旋律信息;
参数加载模块,用于基于所述风格信息对构建模型加载与所述风格信息对应的参数包;
特征确定模块,用于所述构建模型加载参数包后,基于所述音乐,通过所述构建模型确定表情特征序列;所述表情特征序列与所述参数包对应;
图像生成模块,用于基于所述表情特征序列和所述预设图像,通过合成模型生成表情图像序列;所述合成模型用于合成表情图像序列;
显示模块,用于通过显示装置显示所述表情图像序列;
其中,
所述构建模型包括语音特征嵌入层、旋律特征嵌入层、以及表情特征生成层;所述语音特征嵌入层基于所述音乐的所述语音信息确定语音特征序列;所述旋律特征嵌入层基于所述音乐的所述旋律信息确定旋律特征序列;所述表情特征生成层包括Seq2Seq模型,用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。
6.一种在音箱上实时显示表情图像的装置,包括处理器,其特征在于,所述处理器用于执行权利要求1~4中任一项所述的在音箱上实时显示表情图像的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉桑(南京)科技有限公司,未经汉桑(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011114454.3/1.html,转载请声明来源钻瓜专利网。