[发明专利]基于强化学习的对抗性视频时刻检索方法、装置、计算机设备和存储介质有效
申请号: | 202010557372.X | 申请日: | 2020-06-18 |
公开(公告)号: | CN111782870B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 曹达;曾雅文;荣辉桂;朱宁波;陈浩;秦拯 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/732 | 分类号: | G06F16/732;G06F16/783;G06K9/00;G06K9/62;G06N20/00 |
代理公司: | 深圳市中原力和专利商标事务所(普通合伙) 44289 | 代理人: | 罗小辉 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 对抗性 视频 时刻 检索 方法 装置 计算机 设备 存储 介质 | ||
1.一种基于强化学习的对抗性视频时刻检索方法,其特征在于,包括:
S1:输入完整视频v和查询语句q作为强化学习代理的环境信息;
S2:提取所述环境信息的查询语句特征fq、全局视频特征fg、位置特征It和与所述位置特征It对应的局部视频特征fIt构成当前的视频时刻片段的状态st=[fq,fg,It,fIt],其中,t为时间步骤,位置特征It为初始的时序边界It;
S3:所述强化学习代理根据所述状态st作出在所述时序边界It移动的动作at,获取执行所述动作at的奖励rt以及根据所述奖励rt输出若干个更新的时序边界It+1和与所述时序边界It+1对应的局部视频特征fIt+1,重新构成当前的视频时刻片段的状态s',此时,所述时序边界It+1为更新后当前的视频时刻候选片段;
S4:通过贝叶斯个性化排序方法对所述时序边界It和所述查询语句q进行匹配,输出匹配分值,并将所述匹配分值作为奖励rt返回所述强化学习代理;
S5:所述强化学习代理和所述贝叶斯个性排序方法通过对抗学习相互增强,直到收敛,得到对应所述查询语句q的视频时刻片段I=(Is,Ie),其中,Is为视频起始时刻,Ie为视频结束时刻;
在步骤S4中,包括:
S41:所述查询语句q包括标记的真实视频时刻τ=(τs、τe),提取所述查询语句q、时序边界It和真实视频时刻τ的特征,其中,τs为标记的真实视频起始时刻,τe为标记的真实视频结束时刻;
S42:通过预设公共空间以及所述查询语句q的特征、时序边界It的特征和所述真实视频时刻τ的特征获取所述查询语句q的映射函数、时序边界It的映射函数以及所述真实视频时刻τ的映射函数;
S43:通过元素级乘法、元素级加法和全连接获取所述查询语句q的映射函数和所述时序边界It的映射函数结合函数以及所述查询语句q的映射函数和所述真实视频时刻τ的映射函数结合函数;
S44:根据所述查询语句q的映射函数和所述时序边界It的映射函数结合函数以及根据所述查询语句q的映射函数和所述真实视频时刻τ的映射函数结合函数,输出更新的时序边界It中接近所述真实视频时刻τ的匹配分值。
2.根据权利要求1所述的基于强化学习的对抗性视频时刻检索方法,其特征在于,在步骤S3中,还包括:通过深度确定性策略梯度算法更新所述强化学习代理以输出若干个更新的时序边界It+1,所述深度确定性策略梯度算法由评论家网络、演员网络、评论家网络参数滞后网络以及演员网络参数滞后网络构成,所述评论家网络根据所述奖励rt判断所述动作at是否为最优动作,所述演员网络用于执行所述最优动作以获得更新的时序边界lt+1,所述评论家网络参数滞后网络以及所述演员网络参数滞后网络通过软更新方法更新各自滞后网络的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010557372.X/1.html,转载请声明来源钻瓜专利网。