[发明专利]模型生成方法、视频分类方法、装置、终端及存储介质有效
申请号: | 201811326723.5 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109710800B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 梁大为 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/73 | 分类号: | G06F16/73;G06F16/735;G06N3/04;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 生成 方法 视频 分类 装置 终端 存储 介质 | ||
1.一种模型生成方法,其特征在于,包括:
获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征;其中,所述文本特征的来源包括:视频标题的文本、视频展现页面的文本、视频展现页面的关键词文本、视频图像画面中通过OCR技术提取的文本、以及通过自动语音识别技术从视频文件中的音频中提取的文本;其中,采取的每个待分类视频中的图像是通过二维或三维的卷积神经网络来执行;
将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量;
将所述音频向量、图像向量和文本向量逐个首尾相连拼接成一个维度是三个向量维度之和的第一向量;其中,所述音频向量、图像向量和文本向量之间任意首尾相连拼接,且,对每个待分类视频保持同样的首尾相连拼接顺序;
将所述拼接后的第一向量输入第一全连接层进行降维处理,得到降维处理后的第二向量,其中,所述降维处理后的第二向量为融合后的向量;
对所述融合后的向量进行瓶颈门控和混合专家层处理,得到多个分类标签的概率预测向量,包括:将所述降维处理后的第二向量输入第二全连接层进行降维处理,并将降维处理后的向量进行层归一化和整流线性处理,得到处理后的向量;将处理后的向量输入到维数和第一全连接层相同的第三全连接层进行维度相关性处理,并将处理结果进行层归一化和双弯曲函数sigmoid激活,得到激活后的向量;将激活后的所述向量逐点乘以所述第一全连接层降维处理后的第二向量,并将得到的第三向量作为经过第一瓶颈门控处理后输出的向量;将所述第三向量通过混合专家层进行处理,得到多个分类标签的第一概率预测向量;将所述多个分类标签的第一概率预测向量进行第二瓶颈门控处理,得到多个分类标签的第二概率预测向量;
将所述多个分类标签的概率预测向量及真值标签向量输入到损失函数进行计算,得到多个分类标签分类损失的计算结果;
根据所述计算结果,利用梯度反向传播方法对视频分类模型的参数进行反复迭代学习,得到视频分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取多个待分类视频文件中每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征,包括:
对多个待分类视频文件中的每个待分类视频文件分别进行采样,得到每个待分类视频文件的多个音频片段和多张图像;
提取所述多个音频片中每个音频片段的音频原始特征,并将多个音频原始特征聚合成一个音频聚合特征;
提取多张图像中的每张图像的图像原始特征,并将多个图像原始特征聚合成一个图像聚合特征;
从每个待分类视频文件的文本描述中提取文本特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在多个音频原始特征聚合前,对提取的每个音频原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个音频原始特征;对量化后的每个音频原始特征进行反量化处理,得到反量化后的每个音频原始特征;在多个图像原始特征聚合前,对提取的每个图像原始特征进行主成分分析降维、白化以及量化处理,得到量化后每个图像原始特征;对量化后的每个图像原始特征进行反量化处理,得到反量化后的每个图像原始特征;
所述将多个音频原始特征聚合成一个音频聚合特征,具体包括:将反量化后的所有音频原始特征聚合成一个固定长度的音频聚合特征;
所述将多个图像原始特征聚合成一个图像聚合特征,具体包括:将反量化后的所有图像原始特征聚合成一个固定长度的图像聚合特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行归一化处理,得到对应的音频向量、图像向量和文本向量,包括:
将每个待分类视频文件的音频聚合特征、图像聚合特征和文本特征分别进行L2范数归一化处理,得到归一化处理后的音频向量、图像向量和文本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811326723.5/1.html,转载请声明来源钻瓜专利网。