[发明专利]短视频数据标签推荐方法、装置、计算机设备和存储介质有效

申请号：	201911093019.4	申请日：	2019-11-11
公开（公告）号：	CN110866184B	公开（公告）日：	2022-12-02
发明（设计）人：	王小婵;杨超;蒋斌	申请（专利权）人：	湖南大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/783
代理公司：	华进联合专利商标代理有限公司 44224	代理人：	刘羚
地址：	410001 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频数据标签推荐方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种短视频数据标签推荐方法，包括：

获取多模态短视频数据，提取所述多模态短视频数据中的图像数据、音频数据以及文本数据；

分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵；

通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量；

获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数；

根据所述匹配分数为所述多模态短视频数据推荐标签；

所述获取多模态短视频数据，提取多模态短视频数据中的图像数据、音频数据以及文本数据包括：

获取多模态短视频数据；

分离所述多模态短视频数据的图像模态数据以及音频模态数据；

提取所述图像模态数据中的关键帧数据，将所述关键帧数据作为图像数据；

将所述音频模态数据分割为各音频片段，将所述各音频片段作为音频数据；

将所述多模态短视频数据对应的文本模态数据作为文本数据；

所述提取所述图像模态数据中的关键帧数据包括：

以预设的时间跨度，从分离后的图像模态数据中提取图片作为关键帧数据；

所述分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵，分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵包括：

通过预设ResNet-152特征提取器提取所述图像数据内各关键帧对应的内容特征向量，根据所述各关键帧对应的内容特征向量构建所述图像数据对应的内容特征矩阵；

通过预设CNN特征提取器提取所述图像数据内各关键帧对应的情感特征向量，根据所述各关键帧对应的情感特征向量构建所述图像数据对应的情感特征矩阵；

通过预设SoundNet CNN特征提取器提取所述音频数据内各音频片段对应的内容特征向量，根据各音频片段对应的内容特征向量构建所述音频数据对应的内容特征矩阵；

通过预设Librosa工具库提取所述音频数据内各音频片段对应的各基础声学特征，根据所述基础声学特征获取所述音频数据内各音频片段对应的情感特征向量，根据各音频片段对应的情感特征向量构建所述音频数据对应的情感特征矩阵；

获取所述文本数据内各单词对应的glove词向量，将所述各单词对应的glove词向量作为各单词对应的内容特征向量，根据所述各单词对应的内容特征向量构建所述文本数据对应的内容特征矩阵；

通过预设CoreNLP工具提取所述文本数据对应的情感特征矩阵；

所述通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量，通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量包括：

获取各所述情感特征矩阵对应情感特征向量，所述图像数据的情感特征矩阵对应情感特征向量根据所述图像数据内各关键帧对应的情感特征向量的平均值获取，所述音频数据的情感特征矩阵对应情感特征向量根据所述音频数据内各音频片段对应的情感特征向量的平均值获取；

通过多层感知机分别将所述图像数据、所述音频数据以及所述文本数据对应的情感特征向量映射至情感共同空间，通过对齐损失函数对齐调整映射至所述情感共同空间的情感特征向量，获取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵对应的多模态融合情感特征向量；

将所述图像数据、所述音频数据以及所述文本数据对应的内容特征矩阵内的各内容特征向量输入预设双向LSTM神经网络，获取各内容特征向量对应的前向隐状态向量以及后向隐状态向量；

通过自注意力机制，根据所述各内容特征向量对应的前向隐状态向量以及后向隐状态向量，获取各内容特征向量对应的内容特征权重；

根据所述图像数据、所述音频数据以及所述文本数据对应的内容特征矩阵，以及所述各内容特征向量对应的内容特征权重，获取所述图像数据、所述音频数据以及所述文本数据对应的内容特征向量，通过对齐损失函数对齐调整所述图像数据、所述音频数据以及所述文本数据对应的内容特征向量，获取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵对应的多模态融合内容特征向量；

所述获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数包括：

拼接预设标签语义对应的标签语义特征向量、所述多模态融合情感特征向量以及所述多模态融合内容特征向量；

通过多层感知机，进行多模态融合情感特征、多模态融合内容特征以及与标签语义特征的交互，获取交互特征向量；

根据所述交互特征向量获取所述多模态短视频数据与所述标签的匹配分数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于湖南大学，未经湖南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911093019.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]短视频数据标签推荐方法、装置、计算机设备和存储介质有效

专利文献下载