[发明专利]视频分类方法、装置及电子设备有效
申请号: | 201910921216.4 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110674348B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李伟健;王长虎 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06N3/0464;G06F18/24;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分类 方法 装置 电子设备 | ||
本公开实施例中提供了一种视频分类方法、装置及电子设备,属于数据处理技术领域,该方法包括:对目标视频中提取的音频文件进行转化,得到与所述目标视频对应的文本文件;利用具有文本分类功能的第一卷积神经网络,对所述文本文件进行特征计算,以便于在所述第一卷积神经网络的全连接层获得所述文本文件的第一特征;利用具有视频分类功能的第二卷积神经网络,对所述目标视频进行特征计算,以便于在所述第二卷积神经网络的全连接层获得所述视频文件的第二特征;将所述第一特征和所述第二特征合并形成的第三特征,作为所述第二卷积神经网络全连接层的输入特征,来进一步的判断所述目标视频的分类。通过本公开的方案,能够提高视频分类的准确度。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种视频分类方法、装置及电子设备。
背景技术
随着技术的不断发展,视频内容日益增长。在对视频内容进行运用的过程中,往往需要对视频进行分类。传统的人工进行分类不仅耗时,而且浪费人力,效率不高。
对视频的分类技术可以基于视频的视频帧、文字信息和音频信息来进行,视频帧作为视频中最重要的信息,也是包含视频信息最多,最能代表视频类别的信息。传统的基于视觉信息的视频分类技术涉及到特征提取、视频建模、分类技术三个方面的内容。在特征提取环节,研究者通常自主选择视频帧的全局或局部特征来表示视频,如HSV、LBP等特征。
在进行视频分类的过程中,如何提高视频分类的准确度,是需要解决的技术问题。
发明内容
有鉴于此,本公开实施例提供一种视频分类方法、装置及电子设备,至少部分解决现有技术中存在的问题。
第一方面,本公开实施例提供了一种视频分类方法,包括:
对目标视频中提取的音频文件进行转化,得到与所述目标视频对应的文本文件;
利用具有文本分类功能的第一卷积神经网络,对所述文本文件进行特征计算,以便于在所述第一卷积神经网络的全连接层获得所述文本文件的第一特征;
利用具有视频分类功能的第二卷积神经网络,对所述目标视频进行特征计算,以便于在所述第二卷积神经网络的全连接层获得所述视频文件的第二特征;
将所述第一特征和所述第二特征合并形成的第三特征,作为所述第二卷积神经网络全连接层的输入特征,来进一步的判断所述目标视频的分类。
根据本公开实施例的一种具体实现方式,所述对目标视频中提取的音频文件进行转化,得到与所述目标视频对应的文本文件之前,所述方法还包括:
按照预设的采样率从所述目标视频中提取音频信息;
基于提取到的音频信息,形成所述音频文件。
根据本公开实施例的一种具体实现方式,所述对目标视频中提取的音频文件进行转化,得到与所述目标视频对应的文本文件,包括:
对所述音频文件执行检测,以获得所述音频文件中的语言类型;
利用与所述语言类型匹配的语言模型,对所述音频文件执行标准化处理,生成标准化语音信息;
利用与所述语言类型匹配的语音-文本模型,将所述标准化语音信息转化成与所述目标视频对应的文本文件。
根据本公开实施例的一种具体实现方式,所述利用具有文本分类功能的第一卷积神经网络,对所述文本文件进行特征计算,包括:
在所述第一卷积神经网络中设置嵌入层,所述嵌入层对所述文本文件中的文本进行向量化操作,得到文本向量矩阵;
基于所述文本特征向量矩阵,对所述文本文件进行特征计算。
根据本公开实施例的一种具体实现方式,所述基于所述文本特征向量矩阵,对所述文本文件进行特征计算,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921216.4/2.html,转载请声明来源钻瓜专利网。