[发明专利]少数民族舞蹈视频描述中视觉互参考语义检测方法在审
申请号: | 202210675177.6 | 申请日: | 2022-06-15 |
公开(公告)号: | CN114898280A | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 杨大伟;高航;毛琳 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/80;G06N3/04;G06N3/08;G06V10/82 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 盖小静 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 少数民族 舞蹈 视频 描述 视觉 参考 语义 检测 方法 | ||
本发明公开了一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其将输入视觉特征经过视觉互参考语义检测结构进行处理,输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入,分别经3D语义检测支路和2D语义检测支路提取语义特征,在语义提取过程中将3D视觉特征引入2D语义检测支路,将2D视觉特征引入3D语义检测支路,实现3D和2D信息的交互作用,同时采用多阶段迭代操作进一步提升语义特征表达能力,将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码,可以得到较准确的视频文本描述。
技术领域
本发明涉及深度学习视频理解技术领域,具体涉及少数民族舞蹈视频描述中视觉互参考语义检测方法。
背景技术
近年来,我国在经济、技术等领域全面发展,少数民族地区的生活水平极大改善,少数民族文化宣传也成为重点工作之一,利用深度学习技术对少数民族舞蹈视频进行自动理解,有利于少数民族文化传播,同时伴随短视频平台的大量涌现,监控和自动审查短视频的内容也成为研究的热点问题。当前对于少数民族舞蹈视频的自动描述技术并不常见,对视频的自动审查也主要依靠人工手段,现有算法并不能实现对视频内容的充分认识和理解。
当前视频描述算法中越来越多地涉及到视频的语义特征,将语义特征作为编码特征,利用长短时记忆等网络对语义特征进行解析进而生成视频的文本描述结果。专利《一种提高视频文本描述准确性的编码器网络模型设计方法》(公开号: CN111985612A)公开了一种视频文本描述的编解码方法,利用视频特征获取语义特征,并且采用S-LSTM网络解码得到视频的文本描述,在编码阶段通过增大单词之间的差异得到更准确的语义特征。专利《基于目标空间语义对齐的视频描述方法》(公开号:CN114154016A)公开了一种视频描述方法,其利用时序高斯空洞卷积获取视频长期时序关系,通过语义重构网络得到句子级概率分布差异,增强视频内容和生成语句的内在关联,输出更准确的文本句子。
语义特征在其它视频理解任务中也应用广泛,专利《一种基于视频序列深度学习的人物行为语义识别方法》(公开号:CN107038419A)公开了一种视频中人物动作识别方法,该方法对视频提取关键帧后,充分利用人体轮廓信息,以轮廓信息作为RBF神经网络的输入特征,得到代表人物行为的语义特征。专利《双通道语义定位多粒度注意互增强的视频问答方法与系统》(公开号: CN114020891A)提出一种视频问答方法,采用多模块设计将不同粒度的特征信息定义为视觉和文本两个通道,并分别设计辅助定位机制,利用增强共享表征得到与问题最相关的特征信息。
上述利用语义特征获取视频文本描述的方法中,语义特征是一种多分类标签形式的特征表示,语义特征不准确会直接影响视频描述效果,不利于少数民族舞蹈视频的描述;不利于安防监控和短视频内容审查的实际应用。因此如何提升语义特征的表达能力,进而生成准确的文本描述成为一个热点问题。
发明内容
本发明的目的在于,提供一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其通过3D和2D信息的互参考增强语义有效性,并采用多阶段迭代操作提升特征表达能力。
为实现上述目的,本申请提出一种少数民族舞蹈视频描述中视觉互参考语义检测方法,其将输入视觉特征经过视觉互参考语义检测结构进行处理,输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和 2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入,分别经 3D语义检测支路和2D语义检测支路提取语义特征,在语义提取过程中将3D视觉特征引入2D语义检测支路,将2D视觉特征引入3D语义检测支路,实现3D 和2D信息的交互作用,同时采用多阶段迭代操作进一步提升语义特征表达能力,将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码,可以得到较准确的视频文本描述。
所述视觉互参考语义检测结构包括3D语义检测支路和2D语义检测支路,其用于提取语义特征的基本单元均为语义检测单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210675177.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:黄精种苗种植用诱虫装置
- 下一篇:用于企业用餐的支付控制及数据处理方法及装置