[发明专利]一种情感预测方法及其设备在审
申请号: | 202010202746.6 | 申请日: | 2020-03-20 |
公开(公告)号: | CN113496156A | 公开(公告)日: | 2021-10-12 |
发明(设计)人: | 赵寅;蔡龙军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 预测 方法 及其 设备 | ||
本申请公开了一种情感预测方法及其设备,所述方法包括:将视频内容按照预定时间间隔划分为视频段;针对每个视频段,获取该视频段帧级别的音频特征和/或图像特征;将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合,得到该视频段的短时视频特征;将短时视频特征输入到经过训练的情感预测模型进行长时特征融合,以预测出所述视频内容的情感信息。采用本申请可在预测情感期间考虑到时序信息,提高了情感预测的准确度。
技术领域
本申请涉及计算机技术领域,尤其涉及一种情感预测方法及其设备。
背景技术
在人工智能领域,情感预测是指赋予机器预测特定对象情感的能力,并在此基础上让机器做出相应的回应,即赋予机器“思考”能力。情感预测技术对于教育、商业营销、交通等领域发挥着重要作用。特别在视频领域,如果能够准确预测出用户关于视频内容的情感变化,可以帮助视频内容的制作、宣传、推广、运营等更精细化、更满足观众的需求。
在相关技术中,针对视频内容的情感预测方法通常采用如下步骤:提取出视频中每一帧的图像数据和音频数据,并分别针对图像数据与音频数据利用现有的机器学习模型(例如,卷积神经网络模型)预测出用户在观看每一帧时的情感。
发明内容
本申请实施例提供一种情感预测方法及其设备,用以至少解决以上存在的技术问题。
本申请实施例还提供一种情感预测方法,所述方法包括:将视频内容按照预定时间间隔划分为视频段;针对每个视频段,获取该视频段帧级别的音频特征和/或图像特征;将所述视频段帧级别的音频特征和/或图像特征分别按时序进行融合,得到该视频段的短时视频特征;将短时视频特征输入到经过训练的情感预测模型进行长时特征融合,以预测出所述视频内容的情感信息。
本申请实施例还提供一种情感预测设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行以上方法。
本申请实施例还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行以上方法。
本申请实施例还提供一种用于信息推荐的情感预测方法,所述方法包括:执行上述的情感预测方法获取视频内容的情感信息;获得所述情感信息相关的数据信息;将所述数据信息推送至终端设备显示。
本申请实施例还提供一种用于展示推荐信息的方法,所述方法包括:接收待展示的数据信息,所述数据信息指示上述方法中用于信息推荐的情感预测方法中获取的所述数据信息;将所述数据信息与所述视频内容关联显示。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
根据本申请的示例性实施例的情感预测方法为了预测视频内容的情感信息,可将所述视频内容进行分段后确定每个视频段帧级别的视频数据分别在图像模态以及音频模态上的特征,根据这些特征获取短时视频特征,并将各个视频段的短时视频特征利用训练的情感预测模型进行长时特征融合,从而实现了长短时段两个层面上的时序融合,既能捕捉动态特性,有减少了短时的噪声,提高了情感预测的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是示出根据本申请的示例性实施例的情感预测的场景图;
图2是示出根据本申请的示例性实施例的情感预测方法的流程图;
图3是示出根据本申请的示例性实施例的获取视频段对应的短时视频特征的示图;
图4是示出根据本申请的示例性实施例的获取视频内容的情感信息的示图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010202746.6/2.html,转载请声明来源钻瓜专利网。