[发明专利]一种基于深度学习的互联网教育视频图像筛选提取法在审
申请号: | 202111032198.8 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113722514A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 王晓跃;耿晨熙 | 申请(专利权)人: | 江苏熙枫教育科技有限公司 |
主分类号: | G06F16/435 | 分类号: | G06F16/435;G06F16/48;G06F40/289;G06K9/62 |
代理公司: | 北京沃知思真知识产权代理有限公司 11942 | 代理人: | 周俊华 |
地址: | 213001 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 互联网 教育 视频 图像 筛选 提取 | ||
1.一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,该筛选提取方法的具体步骤如下:
步骤一、待检测多媒体数据输入,输入用户所需要进行检索的待检测多媒体数据,所述待检测多媒体数据为多模态数据,其具体包括文本数据和图像数据;
步骤二、特征提取,获取步骤一所述文本数据和图像数据,并将其分别输入对应文本模型和图像模型中进行向量特征提取,分别得到文本特征向量和图像特征向量;
步骤三、特征融合,获取步骤二所述文本特征向量和图像特征向量,通过融合算法构建其对应门特征与残差特征,并采用度量学习方法进行特征融合,得到融合特征向量,
步骤四、筛选提取,将多媒体教案素材库中多模态数据进行向量转化,得到目标数据特征向量,同时将其与融合特征向量一起投射到同一公共空间,并进行相似性度量计算,同时根据相似度进行排序,筛选提取出前N个候选数据作为检索结果。
2.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤一所述文本词向量在进行特征提取前需进行分词处理,所述分词处理是基于统计的分词算法,其用于进行停用词去除以及关键词划分,所述停用词包含两类:一类是指频繁出现的词,另一类是指某些虚词,其包括语气助词、副词、介词、连接词及感叹词,所述停用词通过符号代替,并将其从分词结果中去掉,所述符号包括“()”、“、”、“-”、“/”、和“”。
3.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤二所述文本模型和图像模型分别为BERT文本表示模型和VGGNet网络模型。
4.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤三所述特征融合具体过程如下:
S1:根据所述文本特征向量和图像特征向量并利用同位元素对应相乘的方式构建门特征与残差特征,
所述门特征计算公式如下:
fgate(φx,φt)=σ(Wg*ReLU(φ′t))⊙φx (1)
所述残差特征计算公式如下:
fres(φx,φt)=σ(Wr*ReLU(φ′t) (2)
式中:σ为sigmoid函数,Wg和Wr均为3*3的卷积过滤器,ReLU为线性修正单元,⊙为同位元素对应相乘的计算方法;
S2:对构建完成的门特征与残差特征进行权重配比,并进行线性组合,其公式如下:
S3:采用深度度量学习方式对所述门特征与残差特征进行权重参数优化,得到融合特征向量。
5.根据权利要求4所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,所述门特征与残差特征在进行构建前需要对文本特征向量和图像特征向量进行空间结构统一,即通过一个3*3的卷积过滤器对所述文本特征向量进行结构变换,其公式如下:
φ′t=W*(φx,φt) (4)
式中:φ′t为结构变换后的文本特征向量,φx表示图像特征向量,φt表示文本特征向量,W表示一个3*3的卷积过滤器。
6.根据权利要求1所述的一种基于深度学习的互联网教育视频图像筛选提取法,其特征在于,步骤四所述相似性度量计算采用余弦距离算法实现,其具体公式如下:
式中:x为融合特征向量;y为目标数据特征向量;cos为余弦值,所述cos余弦值取值范围为[-1,1],若该cos余弦值越大,则表示两个向量越相似,反之,则相反。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏熙枫教育科技有限公司,未经江苏熙枫教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111032198.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种颜色对比度调整方法、装置和设备
- 下一篇:一种包边模具、使用方法及包边框