[发明专利]视频处理方法、装置、计算机设备以及存储介质在审
申请号: | 202011188874.6 | 申请日: | 2020-10-30 |
公开(公告)号: | CN113392270A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 黄剑辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06F16/783;G06F40/126;G06F40/30;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 处理 方法 装置 计算机 设备 以及 存储 介质 | ||
本申请实施例公开了一种视频处理方法、装置、计算机设备以及存储介质,本申请属于人工智能领域下的计算机视觉技术。视频处理方法包括:获取目标视频,目标视频包括第一模态视频内容以及第二模态视频内容;提取第一模态视频内容的第一模态特征,以及提取第二模态视频内容的第二模态特征;将第一模态特征和第二模态特征进行双线性融合处理,得到多模态特征;根据多模态特征确定目标视频的多个视频内容标签的排序结果。采用本申请,可以提高视频标签的识别效率以及视频标签的排序效率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频处理方法、装置、计算机 设备以及存储介质。
背景技术
随着互联网的发展,自媒体的应运而生,现如今,互联网上的视频飞速增 长,其类型也是五花八门。在这种情况下,视频标签便在视频推荐以及视频搜 索中发挥了重要作用。怎样生成视频标签,以及如何确定视频标签的排列顺序 也成了当下的研究热点之一。
目前,确定视频标签的方式主要是通过人工的方式,即人工观看以及理解 整个视频后,为视频设置对应的多个标签,以及将多个标签排序。人工设置视 频标签以及设置标签顺序需要经过观看视频,理解视频,设置标签等过程,导 致人工设置视频标签的效率低下。
发明内容
本申请实施例提供一种视频处理方法、装置、计算机设备以及存储介质, 可以提高视频标签的识别效率以及视频标签的排序效率。
本申请实施例一方面提供了一种视频处理方法,包括:
获取目标视频,所述目标视频包括第一模态视频内容以及第二模态视频内 容;
提取所述第一模态视频内容的第一模态特征,以及提取所述第二模态视频 内容的第二模态特征;
将所述第一模态特征和所述第二模态特征进行双线性融合处理,得到多模 态特征;
根据所述多模态特征确定目标视频的多个视频内容标签的排序结果。
本申请实施例一方面提供了一种视频处理装置,包括:
获取模块,用于获取目标视频,所述目标视频包括第一模态视频内容以及 第二模态视频内容;
提取模块,用于提取所述第一模态视频内容的第一模态特征,以及提取所 述第二模态视频内容的第二模态特征;
融合模块,用于将所述第一模态特征和所述第二模态特征进行双线性融合 处理,得到多模态特征;
识别模块,用于根据所述多模态特征确定目标视频的多个视频内容标签的 排序结果。
其中,所述第一模态视频内容包括目标视频文本,所述第二模态视频内容 包括N张视频帧图像,N是正整数;
所述提取模块在用于提取所述第一模态视频内容的第一模态特征,以及提 取所述第二模态视频内容的第二模态特征时,具体用于:
调用循环神经网络提取所述目标视频文本的语义文本特征,将所述语义文 本特征作为所述第一模态特征;
调用卷积神经网络分别提取每一张视频帧图像的视觉图像特征,将N张视 频帧图像的N个视觉图像特征进行平均处理,得到所述第二模态特征。
其中,所述目标视频文本包括第一字符和第二字符;
所述提取模块在用于调用循环神经网络提取所述目标视频文本的语义文本 特征时,具体用于:
将所述第一字符转换的第一字符向量,将所述第二字符转换为第二字符向 量;
调用循环神经网络对所述第一字符向量进行编码处理,得到第一隐藏特征;
调用循环神经网络对所述第一隐藏特征和所述第二字符向量进行编码处 理,得到第二隐藏特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011188874.6/2.html,转载请声明来源钻瓜专利网。