[发明专利]视频分类方法、装置及电子设备有效
申请号: | 201910921216.4 | 申请日: | 2019-09-27 |
公开(公告)号: | CN110674348B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 李伟健;王长虎 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06N3/0464;G06F18/24;G06F16/35 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 李莎 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分类 方法 装置 电子设备 | ||
1.一种视频分类方法,其特征在于,包括:
对目标视频中提取的音频文件进行转化,利用语音-文本模型得到与所述目标视频对应的文本文件,包括:
按照预设的采样率从所述目标视频中提取音频信息;
将提取到的音频信息集合在一起,以形成所述音频文件;
对所述音频文件的音频波形执行归类计算,并将归类计算得到的结果与多个语言模型的典型波形进行匹配,以确定所述音频文件中的语言类型;
利用与所述语言类型匹配的语言模型,对所述音频文件执行标准化处理,生成标准化语音信息;
利用与所述语言类型匹配的语音-文本模型,将所述标准化语音信息转化成与所述目标视频对应的文本文件;
利用具有文本分类功能的第一卷积神经网络,对所述文本文件进行特征计算,包括:在所述第一卷积神经网络中设置嵌入层,所述嵌入层对所述文本文件中的文本进行向量化操作,得到文本向量矩阵;基于所述文本向量矩阵,对所述文本文件进行特征计算;以便于在所述第一卷积神经网络的全连接层获得所述文本文件的第一特征;
利用具有视频分类功能的第二卷积神经网络,对所述目标视频进行特征计算,以便于在所述第二卷积神经网络的全连接层获得所述目标视频的第二特征;
将所述第一特征和所述第二特征合并形成的第三特征,作为所述第二卷积神经网络全连接层的输入特征,来进一步的判断所述目标视频的分类。
2.根据权利要求1所述的方法,其特征在于,所述基于所述文本向量矩阵,对所述文本文件进行特征计算,包括:
依次利用所述第一卷积神经网络中的卷积层、池化层和全连接层对所述文本向量矩阵进行特征计算;
将所述全连接层计算得到的特征矩阵作为所述文本文件的第一特征。
3.根据权利要求1所述的方法,其特征在于,所述利用具有视频分类功能的第二卷积神经网络,对所述目标视频进行特征计算,包括:
在所述第二卷积神经网络中设置视频分离层;
基于所述视频分离层,从所述目标视频中提取多个视频帧;
基于所述多个视频帧,对所述目标视频进行特征计算。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个视频帧,对所述目标视频进行特征计算,包括:
将所述多个视频帧转换为多个图像矩阵;
依次利用所述第二卷积神经网络中的卷积层、池化层对所述多个图像矩阵进行特征计算;
将输入到所述第二卷积神经网络全连接层的特征矩阵作为所述目标视频的第二特征。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一特征和所述第二特征合并形成的第三特征,作为所述第二卷积神经网络全连接层的输入特征,来进一步的判断所述目标视频的分类,包括:
将表示所述第一特征和所述第二特征的特征矩阵进行均值处理,得到表示第三特征的特征矩阵;
利用所述表示第三特征的特征矩阵及所述第二卷积神经网络的全连接层,确定所述目标视频的分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910921216.4/1.html,转载请声明来源钻瓜专利网。