[发明专利]基于音视频融合的地震幸存者识别方法及装置在审
申请号: | 202210494013.3 | 申请日: | 2022-04-29 |
公开(公告)号: | CN114926857A | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 徐常胜;姚涵涛 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V20/40;G06V10/80;G06V10/764;G06V10/74;G06V10/40;G06N3/04;G06K9/62;G10L25/03;G10L25/51 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 周淑娟 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 视频 融合 地震 幸存者 识别 方法 装置 | ||
1.一种基于音视频融合的地震幸存者识别方法,其特征在于,包括:
确定目标视频,所述目标视频包括N个视频片段,N为正整数;
提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征;
基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征;
基于所述时序音频特征和时序视觉特征,确定所述目标视频的地震幸存者识别结果。
2.根据权利要求1所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述提取所述N个视频片段中各个视频片段对应的音频特征和视觉特征,包括:
确定所述N个视频片段中各个视频片段对应的音频信息和视觉信息;
提取所述音频信息和视觉信息的骨干特征,所述骨干特征包括音频骨干特征、视觉二维骨干特征和视觉三维骨干特征;
将所述骨干特征映射为所述各个视频片段对应的音频特征和视觉特征。
3.根据权利要求1所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述基于自注意力机制和跨模态注意力机制,融合所述各个视频片段对应的音频特征和视觉特征的同模态特征和跨模态特征,确定各个视频片段对应的时序音频特征和时序视觉特征,包括:
基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征;
基于所述每个视频片段的音频特征、所述同模态时序音频特征和所述跨模态时序视觉特征,确定所述每个视频片段的时序音频特征,并基于所述每个视频片段的视觉特征、所述同模态时序视觉特征和所述跨模态时序音频特征,确定所述每个视频片段的时序音频特征。
4.根据权利要求3所述的基于音视频融合的地震幸存者识别方法,其特征在于,所述基于所述各个视频片段对应的音频特征和视觉特征,确定每个所述音频特征对应的同模态时序音频特征、每个所述音频特征对应的跨模态时序视觉特征、每个所述视觉特征对应的同模态时序视觉特征以及每个所述视觉特征对应的跨模态时序视觉特征,包括:
确定每个视频片段的音频特征与所述N个视频片段的音频特征之间的音频与音频相似度,并基于所述音频与音频相似度,确定每个所述音频特征对应的同模态时序音频特征;
确定每个视频片段的音频特征与所述N个视频片段的视觉特征之间的音频视觉相似度,并基于所述音频视觉相似度,确定每个所述音频特征对应的跨模态时序视觉特征;
确定每个视频片段的视觉特征与所述N个视频片段的视觉特征之间的视觉与视觉相似度,并基于所述视觉与视觉相似度,确定每个所述视觉特征对应的同模态时序视觉特征;
确定每个视频片段的视觉特征与所述N个视频片段的音频特征之间的视觉音频相似度,并基于所述视觉音频相似度,确定每个所述视觉特征对应的跨模态时序音频特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210494013.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电厂脱硫塔喷淋管道连接装置
- 下一篇:一种园林绿化施工用防扬尘装置