[发明专利]视频识别模型的训练方法、视频识别方法及相关设备在审

申请号：	202111608930.1	申请日：	2021-12-27
公开（公告）号：	CN114419488A	公开（公告）日：	2022-04-29
发明（设计）人：	马灏;陈益如	申请（专利权）人：	北京达佳互联信息技术有限公司
主分类号：	G06V20/40	分类号：	G06V20/40;G10L15/26
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	李娜
地址：	100085 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频识别模型训练方法相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开关于一种视频识别模型的训练方法、视频识别方法及相关设备，该方法包括：获取视频样本集合，视频样本集合中的视频样本包括展示数据、音频数据、展示数据与音频数据的相关性标注数据；提取展示数据中的展示文本数据；对音频数据进行语音识别，获取播放文本数据；将展示文本数据和播放文本数据输入视频识别模型的第一网络结构，获取文本关系向量；将文本关系向量输入视频识别模型的第二网络结构，获取相关性预测数据；根据由相关性预测数据和相关性标注数据确定的目标损失，对第二网络结构对应的网络参数进行训练，获取符合预设条件的视频识别模型，获取到的已训练视频识别模型可以对视频进行快速准确的识别。

技术领域

本公开涉及互联网技术领域，尤其涉及视频识别模型的训练方法、视频识别方法及相关设备。

背景技术

随着互联网技术的发展，媒体应用的普及，各种视频充斥在人们的日常生活中，用户通过浏览视频的标题，确定是否点击播放该视频。因此视频的标题对视频的点击率具有重要影响。为了获取到更多的点击率，视频的上传者往往刻意将与视频实际内容无关的某个热门或有争议性话题作为视频标题，诱导用户点击播放，用户点击后发现视频实际内容与标题不符，体验感较差。

相关技术中，采用深度结构语义模型对视频进行识别，确定视频实际内容是否与标题一致，而深度结构语义模型是一个典型的双塔结构，难以捕获视频实际内容与标题间的有效信息，致使识别结果的准确性较低。

发明内容

本公开提供一种视频识别模型的训练方法、视频识别方法及相关设备，以至少解决相关技术中利用深度结构语义模型对视频进行识别时，识别结果的准确性较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频识别模型的训练方法，包括：

获取视频样本集合，所述视频样本集合中的视频样本包括展示数据、音频数据、所述展示数据与所述音频数据的相关性标注数据；

提取所述展示数据中的展示文本数据；

对所述音频数据进行语音识别，获取播放文本数据；

将所述展示文本数据和所述播放文本数据输入视频识别模型的第一网络结构，所述第一网络结构用于捕获所述展示文本数据和所述播放文本数据间的依赖关系，获取文本关系向量；

将所述文本关系向量输入所述视频识别模型的第二网络结构，获取相关性预测数据；

根据由所述相关性预测数据和所述相关性标注数据确定的目标损失，对所述第二网络结构对应的网络参数进行训练，获取符合预设条件的视频识别模型。

可选的，所述展示数据包括封面图像和描述文本数据，则所述提取所述展示数据中的展示文本数据，包括：

对所述封面图像进行识别，获取封面文本数据；