[发明专利]一种在音箱上实时显示表情图像的方法、系统及装置有效
申请号: | 202011114454.3 | 申请日: | 2020-10-19 |
公开(公告)号: | CN112015945B | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈玮 | 申请(专利权)人: | 汉桑(南京)科技有限公司 |
主分类号: | G06F16/64 | 分类号: | G06F16/64;G06F16/683 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 211106 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音箱 实时 显示 表情 图像 方法 系统 装置 | ||
本申请公开了一种在音箱上实时显示表情图像的方法、系统及装置,所述方法包括:获取预设图像以及与歌手的表情风格相关的风格信息;获取播放设备播放的音乐;基于风格信息对构建模型加载对应的参数包;基于音乐,通过构建模型确定表情特征序列;基于表情特征序列和预设图像,通过合成模型生成表情图像序列,并通过显示装置显示表情图像序列;其中,构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层;语音特征嵌入层基于音乐确定语音特征序列;旋律特征嵌入层基于音乐确定旋律特征序列;表情特征生成层包括Seq2Seq模型,用于基于语音特征序列和旋律特征序列生成表情特征序列。
技术领域
本申请涉及计算机技术领域,特别涉及一种在音箱上实时显示表情图像的方法、系统及装置。
背景技术
便携式音箱体积小巧便于携带,可以用来播放与之相连的设备中的音频,而且还能和他人一起使用,因此备受大众欢迎。为满足用户的不同需求,便携式音箱的功能逐渐多样化,除了播放音频的基本功能,有些音箱还具有显示功能。
然而,目前音箱中有关音乐相关图片、文字以及图形的显示一般是相对固定的,无法根据音频播放的进度以及音频当前的特征进行个性化调整,使得音箱呈现出的内容比较单调。
发明内容
为了解决音箱显示的内容相对固定,无法根据音频播放进度以及音频当前特征进行个性化调整,音箱呈现内容比较单调的问题,本发明提供一种在音箱上实时显示表情图像的方法、系统及装置。
本发明的技术方案是这样实现的:
一方面,本发明提供了一种在音箱上实时显示表情图像的方法,所述方法包括:获取预设图像以及风格信息;所述风格信息包括与歌手的表情风格相关的信息;获取播放设备播放的音乐;基于所述风格信息对构建模型加载对应的参数包;基于所述音乐,通过所述构建模型确定表情特征序列;基于所述表情特征序列和所述预设图像,通过合成模型生成表情图像序列;通过显示模块显示所述表情图像序列;其中,所述构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层;所述语音特征嵌入层基于所述音乐确定语音特征序列;所述旋律特征嵌入层基于所述音乐确定旋律特征序列;所述表情特征生成层包括Seq2Seq模型,用于基于所述语音特征序列和所述旋律特征序列生成所述表情特征序列。
进一步的,所述构建模型通过如下方法获得:获取与所述风格信息对应的训练集;所述训练集至少包括训练歌曲和样本表情图像;将所述训练集输入初始构建模型,以与所述风格信息对应的表情特征标签序列为标签,训练初始构建模型,获得训练好的构建模型;其中,所述初始构建模型包括语音特征嵌入层、旋律特征嵌入层以及表情特征生成层;所述表情特征标签序列通过对与所述风格信息对应的样本表情图像进行关键点提取获得。
进一步的,所述合成模型通过如下方法获得:获取样本训练集;所述样本训练集包括样本表情特征序列、样本表情图像序列以及样本预设图像;将所述样本训练集输入初始合成模型,以样本表情图像序列为标签,训练初始合成模型,获得训练好的合成模型;其中,所述样本表情特征序列通过对所述样本表情图像序列提取关键点获得。
进一步的,所述播放设备为音箱,所述显示装置包括以下至少一种:所述音箱上的显示屏;所述音箱上的投影单元,所述投影单元用于将图像进行投影。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于汉桑(南京)科技有限公司,未经汉桑(南京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011114454.3/2.html,转载请声明来源钻瓜专利网。