[发明专利]用于表征视频内容的深度强化学习框架在审
申请号: | 201880069825.5 | 申请日: | 2018-10-25 |
公开(公告)号: | CN111837142A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | R.陈;N.库马尔;H.李 | 申请(专利权)人: | 索尼互动娱乐股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 张晓明 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 表征 视频 内容 深度 强化 学习 框架 | ||
视频场景中的视频信息被表示为每帧描绘的特征序列。通过时间步距t的视频信息和来自前一时间步距t‑1的预测情感信息来表示对应于每个帧的每个时间步距t的环境状态。利用由机器学习算法控制的代理对步距t的帧采取动作A(t),其中动作A(t)的输出表示时间步距t的帧的情感标签预测。将预测动作池转变成下一时间步距t+1的预测情感历史。包括预测情感历史作为下一时间步距t+1的所述环境状态的一部分。通过将到当前时间步距t为止的预测动作与对应的标注电影场景情感标签进行比较,关于预测动作生成奖励R。
优先权要求
本申请要求2017年10月27日提交的美国临时专利申请62/577,970号的优先权权益,其全部内容通过引用并入本文中。
背景技术
随着视频点播移动电话应用和网站(如youtube.com)的普及,人们可以从不同的在线来源获得前所未有的视频量。因此,提取视频元数据(例如,电影场景标注)在方便高效搜索和推荐中起着重要作用。例如,电影推荐系统需要识别电影剪辑场景情感信息,并基于用户的请求或兴趣将其推荐给对应的用户。
然而,大多数可靠的电影标注仍然是手动生成的,因为电影场景情感标签,例如场景是否好笑,通常在较长的时间尺度上表现出来。当人类标注者试图识别电影场景的情感标签时,他们需要考虑更长的上下文。使用一种特定的算法来模拟人类标注过程的这种复杂的非线性性质并不容易。此外,电影情感标签预测是比使用准备充分的标准情绪数据库的情绪预测更具挑战性和更复杂的任务。此外,场景级情感标签通常由多种模态生成。例如,电影包含来自视觉、听觉和词汇渠道的信息。当标注者将一个电影场景标记为好笑时,评估可能是因为演员的面部表情、他们使用的文字记录或者只是背景音乐。更一般地说,标注者通常将所有这些信息组合在一起,来评估一个场景是否好笑。尽管有大量的电影音频资源可用,但由于版权和标注成本的原因,那些具有精确场景级标注的资源通常在数量上受到严重限制。因此,电影场景的情感分类无论是在技术算法上还是在数据收集上都是一项复杂且具有挑战性的任务。
许多相关的研究工作都集中在电影情感内容的分析上。最近,深度学习方法,如卷积神经网络(CNN)被用来提取中层代表,并将其应用于情感视频的理解。该领域的大多数相关研究工作都使用了监督机器学习方法。
本公开的各方面正是在这种背景下出现的。
附图说明
图1是示出根据本公开的各方面的关于电影情感标签预测的提议的RL框架的示意图。
图2是示出根据本公开的各方面的提议的电影序列生成方法的示意图。
图3是示出用于执行包括根据本公开的各方面的视频场景的序列级预测的方法的流程图。
图4是示出包括根据本公开的各方面的用于执行视频场景的序列级预测的系统的框图。
具体实施方式
在高层级上,本公开背后的概念是使用人工智能(AI)方法来改进用于通过试错机制用情感标签标注视频内容的系统。强化学习(RL)是一种经验驱动的自主学习方法的框架。随着深度学习在RL(所定义的领域)中的应用,“深度强化学习”(DRL)在机器学习领域发挥着革命性的作用。DRL的崛起主要来自两个方面。第一个方面是深度神经网络(DNN)强大的函数逼近和表示学习特性。使用DNN,可以从高维数据(例如,图像、音频和文本)中获得低维特征表示,这允许DRL用高维状态和动作空间来解决决策问题。第二个方面是RL的“探索和开发”特性。探索与收集更多信息相关,这意味着系统将探索不同的可能试验,看它们是否比以前试验过的更好。探索确保系统在给定当前信息的情况下做出最佳决策,这意味着系统会记住过去最有效的策略。这两个优点相对于许多其他传统的监督学习方法是显著的进步。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼互动娱乐股份有限公司,未经索尼互动娱乐股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880069825.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法