[发明专利]基于多智能体边界感知网络的自然语言视频片段检索方法有效
申请号: | 201911332422.8 | 申请日: | 2019-12-22 |
公开(公告)号: | CN111198966B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 王瀚漓;孙晓阳 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F16/783 | 分类号: | G06F16/783 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 智能 边界 感知 网络 自然语言 视频 片段 检索 方法 | ||
1.一种基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,该方法以多智能体边界感知网络为基本框架,分别对起点和终点进行多个方向和尺度的迭代,调整时间边界,获得目标片段,所述多智能体边界感知网络包括观察网络、起点智能体、终点智能体和受限监督网络;
该方法包括以下步骤:
S1:对环境中的视频和对应的自然语言描述进行编码,归一化当前片段的时间位置;
S2:在观察网络中构建当前片段的全局状态向量;
S3:在受限监督网络中限制全局状态向量;
S4:起点智能体和终点智能体根据步骤S3获得的全局状态向量分别给出下一步边界调整策略;
S5:根据步骤S4获得的边界调整策略更新环境中的片段的时间位置,重复S1-5直到遇到停止动作或到达最大迭代次数,获得目标片段。
2.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述步骤S1中,由I3D或C3D网络对视频进行编码获得视频视觉特征,采用Skip-Thought对自然语言描述进行编码生成文本向量。
3.根据权利要求2所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述全局状态向量由自然语言特征、跨模态片段特征、全局视觉特征和时间位置特征融合处理生成,其中,
所述自然语言特征由文本向量经过一层全联接层得到,
环境中的视频视觉特征经过两层Bi-GRU进行再编码获得再编码特征,所述全局视觉特征由再编码特征经过Mean-Pool层后生成,
所述再编码特征乘以选择滤波器生成的片段掩码后经过Mean-Pool层处理得到局部视觉特征,所述跨模态片段特征由局部视觉特征和自然语言特征融合后经过一层全联接层得到,
所述时间位置特征由当前片段时间位置经一层全联接层生成。
4.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述受限监督网络包括tIoU回归模块和位置回归模块,tIoU表示当前片段与目标片段的重叠度。
5.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述起点智能体和终点智能体均包括Actor-Critic模块和时间距离回归模块。
6.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略的动作包括以设定尺度前移或后移时间点或者停止,所述设定尺度为多级尺度。
7.根据权利要求1所述的基于多智能体边界感知网络的自然语言视频片段检索方法,其特征在于,所述下一步边界调整策略由智能体的策略网络给出的动作所决定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911332422.8/1.html,转载请声明来源钻瓜专利网。