[发明专利]视频标题的生成方法、装置、电子设备和存储介质在审
申请号: | 201910356968.0 | 申请日: | 2019-04-29 |
公开(公告)号: | CN110213668A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 左凯 | 申请(专利权)人: | 北京三快在线科技有限公司 |
主分类号: | H04N21/8352 | 分类号: | H04N21/8352;H04N21/488;G06N3/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100083 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 帧图像 神经网络 标题信息 场景信息 动作信息 预测 存储介质 电子设备 目标视频 时间顺序 视频标题 特征向量 图像 准确度 全面性 | ||
本发明提供了一种视频标题的生成方法、装置、电子设备和存储介质,所述方法包括:将目标视频的每帧图像输入至预先训练的第一神经网络中,预测得到每帧图像对应的特征向量;按照图像的时间顺序将所述每帧图像对应的特征向量输入至预先训练的第二神经网络中,预测得到每帧图像对应的动作信息;将所述目标视频的每帧图像输入至预先训练的第三神经网络中,预测得到每帧图像对应的场景信息;按照图像的时间顺序将所述每帧图像对应的动作信息、场景信息输入至预先训练的第四神经网络中,预测得到标题信息。可以根据动作信息、场景信息预测标题信息,有助于提高标题信息的全面性和准确度。
技术领域
本发明实施例涉及视频推荐技术领域,尤其涉及一种视频标题的生成方法、装置、电子设备和存储介质。
背景技术
在将视频向用户进行推荐时,需要对视频生成标题信息,以辅助用户确定是否观看该视频。其中,标题信息可以包括视频中的关键信息。
现有技术中,生成视频的标题信息可以包括如下主要步骤:首先,提取视频中每一帧图像内的运动对象的颜色特征、轮廓特征、场景特征、文字特征,并进行分析;然后,采用上述特征提取方法处理多个已知类别的图片,使用这些图片的轮廓特征和场景特征训练轮廓分类器和场景分类器;再然后,使用上述特征提取、分析方法和分类器对待检索的视频进行处理,生成视频中每一帧图像内的对象的类型标签,用于构建对象标签数据库;最后,用户提交查询请求后,检索响应服务器在对象标签数据库搜索与查询请求相关的视频,生成有序的结果供用户浏览和查阅。
可以看出,发明人对上述方案研究过程中发现,上述方案并未充分利用视频中的所有信息,导致生成的标题信息不够全面和准确。
发明内容
本发明提供一种视频标题的生成方法、装置、电子设备和存储介质,以解决现有技术中的上述问题。
根据本发明的第一方面,提供了一种视频标题的生成方法,所述方法包括:
将目标视频的每帧图像输入至预先训练的第一神经网络中,预测得到每帧图像对应的特征向量;
按照图像的时间顺序将所述每帧图像对应的特征向量输入至预先训练的第二神经网络中,预测得到每帧图像对应的动作信息;
将所述目标视频的每帧图像输入至预先训练的第三神经网络中,预测得到每帧图像对应的场景信息;
按照图像的时间顺序将所述每帧图像对应的动作信息、场景信息输入至预先训练的第四神经网络中,预测得到标题信息。
可选地,所述按照图像的时间顺序将所述每帧图像对应的动作信息、场景信息输入至预先训练的第四神经网络中,预测得到标题信息的步骤,包括:
识别所述每帧图像中的语言信息;
按照图像的时间顺序将所述每帧图像对应的动作信息、场景信息、语言信息输入至预先训练的第四神经网络中,预测得到标题信息。
可选地,所述按照图像的时间顺序将所述每帧图像对应的动作信息、场景信息、语言信息输入至预先训练的第四神经网络中,预测得到标题信息的步骤,包括:
对于每帧图像,将对应的动作信息、场景信息、语言信息拼接为目标信息;
将所述目标信息输入至预先训练的第四神经网络中,预测得到标题信息。
可选地,所述识别所述每帧图像中的语言信息的步骤,包括:
通过语音识别技术识别每帧图像中的音频信息;和/或,
通过文字识别技术识别每帧图像中的文字信息;
将所述音频信息和/或文字信息融合为语言信息。
可选地,在所述将所述音频信息和/或文字信息融合为语言信息的步骤之前,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910356968.0/2.html,转载请声明来源钻瓜专利网。