[发明专利]用于密集视频描述的技术在审
申请号: | 201780091433.4 | 申请日: | 2017-06-29 |
公开(公告)号: | CN110709855A | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 陈玉荣;J·李;Z·苏;Z·沈 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 31100 上海专利商标事务所有限公司 | 代理人: | 黄嵩泉;何焜 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 描述信息 区域序列 源视频 自然语言描述 存储器耦合 技术和设备 存储器 视频内容 语言模型 应用 | ||
1.一种设备,包括:
至少一个存储器;以及
逻辑,所述逻辑的至少一部分包括在与所述至少一个存储器耦合的硬件中,所述逻辑用于:
接收包括多个帧的源视频,
确定所述多个帧的多个区域,
生成连接所确定的多个区域的至少一个区域序列,以及
将语言模型应用于所述至少一个区域序列以生成描述信息,所述描述信息包括所述源视频的至少一部分内容的描述。
2.如权利要求1所述的设备,所述逻辑用于生成标字幕的视频,所述标字幕的视频包括注释有所述至少一个区域序列和所述描述信息的所述多个帧中的至少一个。
3.如权利要求1所述的设备,所述描述信息包括所述多个区域中的至少一个区域的自然语言描述。
4.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于基于至少一个选择标准来确定所述至少一个区域序列,所述至少一个选择标准包括被配置成使所述至少一个区域序列中的信息最大化的信息性选择标准。
5.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于基于至少一个选择标准来确定所述至少一个区域序列,所述至少一个选择标准包括被配置成使所述至少一个区域序列的所述多个区域之间的余弦相似度最大化的相干性选择标准。
6.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于基于至少一个选择标准来确定所述至少一个区域序列,所述至少一个选择标准包括被配置成在散度方面最大地分开所述至少一个区域序列的所述多个区域的散度选择标准。
7.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于基于至少一个选择标准来确定所述至少一个区域序列,所述至少一个选择标准包括信息性选择标准、相干性选择标准、或散度选择标准中的至少一个。
8.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于经由计算模型来处理所述至少一个帧以生成包括至少一个锚点的响应图,所述至少一个锚点表示所述至少一个区域。
9.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于经由计算模型来处理所述至少一个帧,所述计算模型包括卷积神经网络(CNN),所述CNN包括词法全卷积神经网络(词法-FCN)。
10.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于经由计算模型来处理所述至少一个帧,所述计算模型包括利用多实例多标签学习(MIMLL)过程训练的卷积神经网络(CNN)。
11.如权利要求1至3中的任一项所述的设备,所述逻辑进一步用于经由包括卷积神经网络(CNN)的计算模型来处理所述至少一个帧,所述卷积神经网络(CNN)利用多实例多标签学习(MIMLL)过程训练以生成词法全卷积神经网络(词法-FCN)。
12.如权利要求1至3中的任一项所述的设备,所述语言模型包括序列到序列学习框架,所述序列到序列学习框架包括多个长短期记忆网络(LSTM)。
13.一种方法,包括:
接收包括多个帧的源视频;
确定所述多个帧中的每一个帧的多个区域;
生成连接所确定的多个区域的至少一个区域序列;以及
将语言模型应用于所述至少一个区域序列以生成描述信息,所述描述信息包括所述源视频的至少一部分内容的描述。
14.如权利要求13所述的方法,进一步包括生成标字幕的视频,所述标字幕的视频包括注释有所述至少一个区域序列和所述描述信息的所述多个帧中的至少一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780091433.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:身份信息安全监控方法及系统
- 下一篇:用于确定表观皮肤年龄的系统和方法