[发明专利]视频的多标签分类方法、装置、电子设备与存储介质有效
申请号: | 202010065804.5 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111291643B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 何栋梁;李甫;龙翔;周志超;文石磊;孙昊;丁二锐 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V20/40;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 田宏宾 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 标签 分类 方法 装置 电子设备 存储 介质 | ||
本申请公开了视频的多标签分类方法、装置、电子设备与存储介质,涉及视频处理领域。具体实现方案为:将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中,标签处理模块基于预先建立的多标签体系建模而成;将标签处理模块的网络结构中至少一层的标签特征信息与视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合;获取视频处理模块在多标签体系下,基于融合后的特征信息,为待分类的视频打上的多个标签。本申请的技术方案,能够实现为视频打上多个标签,从而能够准确、全面地描述视频的内容,有效地提高视频的标签分类效果。
技术领域
本申请涉及计算机技术领域,尤其涉及视频处理技术领域,具体涉及视频的多标签分类方法、装置、电子设备与存储介质。
背景技术
视频理解的最主要的一个问题之一就是识别视频里面的内容。现有技术中通常采用为视频打标签的方式来标识视频的内容所属的类别。
例如,现有技术中,可以通过卷积神经网络(Convolutional Neural Networks;CNN)构建的视频分类模型,从多个分类中为视频打上一个分类的标签,来表示视频的内容所属的类别。
但是,一般来说,视频大都包含多重的主体内容或者信息,单一的标签很难描述完整视频的内容。比如,一个打篮球的视频,有极大的概率会出现篮球场,当一个视频分类成打篮球时它被分类为篮球场的可能性也很高。因此,现有的一个标签无法准确地描述视频的内容,亟需提供一种视频的多标签分类方案,以准确地描述视频的内容。
发明内容
为了解决上述技术问题,本申请提供一种视频的多标签分类方法、装置、电子设备与存储介质,用于实现对视频进行多标签分类,提高视频内容描述的准确性。
一方面,本申请提供一种视频的多标签分类方法,包括:
将待分类的视频和随机初始化的标签信息分别输入至预先训练的视频的多标签分类模型中的视频处理模块和标签处理模块中,所述标签处理模块基于预先建立的多标签体系建模而成;
将所述标签处理模块的网络结构中至少一层的标签特征信息与所述视频处理模块的网络结构中对应的至少一层的视频特征信息分别进行融合;
获取所述视频处理模块在所述标签处理模块的所述多标签体系下,基于融合后的特征信息,为所述待分类的视频打上的多个标签。
进一步可选地,如上所述的方法中,所述随机初始化的标签信息与所述标签处理模块训练时采用的随机初始化的标签信息相同。
进一步可选地,如上所述的方法中,所述标签处理模块采用图卷积网络结构,所述视频处理模块采用卷积神经网络结构。
另一方面,本申请还提供一种视频的多标签分类模型的训练方法,包括:
采集数条训练视频;
为各所述训练视频标注多个标签;
采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型,所述视频的多标签分类模型包括视频处理模块和标签处理模块。
进一步可选地,如上所述的方法中,采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型之前,所述方法包括:
基于预先建立的多标签体系,构建所述标签处理模块;和/或
为所述标签处理模块配置随机初始化的标签信息。
进一步可选地,如上所述的方法中,采用所述数条训练视频以及为各所述训练视频标注的所述多个标签训练所述视频的多标签分类模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010065804.5/2.html,转载请声明来源钻瓜专利网。