[发明专利]一种基于文本描述的监控布防方法、装置及系统在审
申请号: | 202210731341.0 | 申请日: | 2022-06-24 |
公开(公告)号: | CN115062112A | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 李响 | 申请(专利权)人: | 杭州海康威视数字技术股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/338;G06F16/783 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 杨春香 |
地址: | 310051 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 描述 监控 布防 方法 装置 系统 | ||
1.一种基于文本描述的监控布防方法,其特征在于,所述方法应用于电子设备,包括:
获得至少一个用于描述行为的描述文本,并确定所述描述文本对应的文本特征向量,所述描述文本至少包括:需要监控的行为;
获得当前行为关联的至少一帧目标视频图像,并依据所述当前行为关联的至少一帧目标视频图像确定当前行为对应的目标图像特征向量;
从已确定的各文本特征向量中依据目标多模态超强知识模型确定所述目标图像特征向量对应的目标文本特征向量;其中,所述目标多模态超强知识模型中至少包含所述目标图像特征向量和已确定的各文本特征向量之间的对应关系;
输出针对目标行为的报警信息,所述目标行为是指所述目标文本特征向量对应的目标描述文本中的行为。
2.根据权利要求1所述的方法,其特征在于,所述至少一帧目标视频图像包括固定长度的连续帧目标视频图像,所述获得当前行为关联的至少一帧目标视频图像,包括:
获得外部输入的针对当前行为的视频;
通过均匀帧采样策略对所述视频进行分帧处理,得到固定长度的连续帧目标视频图像。
3.根据权利要求1所述的方法,其特征在于,所述电子设备运行所述目标多模态超强知识模型;所述目标多模态超强知识模型至少包括:文本编码器;
所述确定所述描述文本对应的文本特征向量包括:
利用所述文本编码器对输入的至少一个描述文本进行编码,得到各描述文本对应的文本特征向量。
4.根据权利要求3所述的方法,其特征在于,所述目标多模态超强知识模型还包括:视频编码器;
所述依据所述当前行为关联的至少一帧目标视频图像确定当前行为对应的目标图像特征向量包括:利用所述视频编码器对所述当前行为关联的固定长度的连续帧目标视频图像进行编码,得到所述目标图像特征向量。
5.根据权利要求3或4所述的方法,其特征在于,所述目标多模态超强知识模型还包括:相似度计算模块;
所述从已确定的各文本特征向量中依据目标多模态超强知识模型确定所述目标图像特征向量对应的目标文本特征向量包括:
利用所述相似度计算模块计算所述目标图像特征向量和已确定的每一文本特征向量之间的相似度;
将与所述目标图像特征向量的相似度大于设定阈值的文本特征向量确定为所述目标文本特征向量。
6.根据权利要求5所述的方法,其特征在于,所述目标多模态超强知识模型通过以下方式训练:
获取各训练行为对应的训练视频;
针对每一训练视频,从该训练视频中提取固定长度的连续帧视频图像,将所述固定长度的连续帧视频图像输入初始多模态超强知识模型中的视频编码器,以由视频编码器对输入的视频图像进行编码,得到训练图像特征向量;以及将该训练视频对应的训练文本输入至初始多模态超强知识模型中的文本编码器,以由文本编码器从文本信息中提取训练文本特征向量;将训练图像特征向量和训练文本特征向量输入至初始多模态超强知识模型中的相似度计算模块,得到训练文本与训练视频的相似度;
依据各训练文本与各训练视频的相似度优化初始多模态超强知识模型,以得到目标多模态超强知识模型。
7.一种基于文本描述的监控布防系统,其特征在于,所述系统包括监控端、服务端、客户端;
其中,所述客户端向所述服务端发送至少一个用于描述行为的描述文本,所述描述文本至少包括:需要监控的行为;
所述服务端执行如权利要求1至6任一项所述的方法步骤;
所述监控端,用于向所述服务端发送当前行为关联的视频,以及,在获得所述服务端输出的报警信息时,执行报警操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州海康威视数字技术股份有限公司,未经杭州海康威视数字技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210731341.0/1.html,转载请声明来源钻瓜专利网。