[发明专利]一种情感预测方法及其设备在审
申请号: | 202010202746.6 | 申请日: | 2020-03-20 |
公开(公告)号: | CN113496156A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 赵寅;蔡龙军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 预测 方法 及其 设备 | ||
1.一种情感预测方法,所述方法包括:
将视频内容按照预定时间间隔划分为视频段;
针对每个视频段,获取该视频段帧级别的音频特征和/或图像特征;
将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合,得到该视频段的短时视频特征;
将短时视频特征输入到经过训练的情感预测模型进行长时特征融合,以预测出所述视频内容的情感信息。
2.如权利要求1所述的方法,其中,针对每个视频段获取该视频段帧级别的音频特征和/或图像特征包括:
针对每个视频段,以帧为单位获取与该视频段帧级别对应的音频数据和/或图像数据;
获取与所述音频数据和/或所述图像数据分别对应的音频特征和/或图像特征。
3.如权利要求2所述的方法,其中,获取与所述音频数据对应的音频特征包括:
将所述音频数据执行梅尔倒谱变换,获取倒谱向量作为所述音频数据的频率特征;
将所述频率特征输入到经过训练的音频特征提取模型,获取与所述音频数据对应的音频特征。
4.如权利要求2所述的方法,其中,所述图像特征包括以下特征中的一项或者两项以上的特征:人脸表情特征、行为特征以及场景特征。
5.如权利要求4所述的方法,其中,在所述图像特征包括人脸表情特征的情况下获取与所述图像数据对应的图像特征包括:
将所述图像数据输入到经过训练的人脸表情预测模型,获取与所述图像数据对应的人脸表情特征。
6.如权利要求4所述的方法,其中,在所述图像特征包括行为特征的情况下获取与所述图像数据对应的图像特征包括:
将所述图像数据输入到经过训练的动作预测模型,获取与所述图像数据对应的行为特征。
7.如权利要求4所述的方法,其中,在所述图像特征包括场景特征的情况下,获取与所述图像数据对应的图像特征包括:
将所述图像数据输入到经过训练的场景预测模型,获取与所述图像数据对应的场景特征。
8.如权利要求1所述的方法,其中,将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合得到该视频段的短时视频特征包括:
将所述视频段帧级别的音频特征和/或图像特征分别输入到经过训练的至少一个短时特征提取模型,获取与所述视频段对应的短时音频特征和/或短时图像特征;
通过对短时音频特征和/或短时图像特征按时序执行融合处理,获取所述视频段的短时视频特征。
9.如权利要求8所述的方法,其中,所述至少一个短时特征提取模型中的每个短时特征提取模型按照以下方式进行训练:
针对每个短时特征提取模型,获取与该短时特征提取模型对应的训练特征数据以及训练情感信息;
构建该短时特征提取模型,设置有训练参数;
利用训练特征数据与训练情感信息之间的对应关系对该短时特征提取模型进行训练,调整所述训练参数,直至该短时特征提取模型达到预设要求。
10.如权利要求9所述的方法,其中,针对每个短时特征提取模型在利用训练特征数据与训练情感信息之间的对应关系对所述短时特征提取模型进行训练调整所述训练参数直至所述短时特征提取模型达到预设要求后包括:
将所述至少一个短时特征提取模型按照预测准确度高低进行排序;
在预测准确度最高的短时特征提取模型的基础上,按照准确度高低逐渐增加排序靠后的短时特征提取模型,并且每增加一个短时特征提取模型,则对当前的短时特征提取模型进行协同训练,直至完成对全部短时特征提取模型的协同训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010202746.6/1.html,转载请声明来源钻瓜专利网。