[发明专利]一种基于点击与视觉融合的弱监督双线性深度学习方法有效
申请号: | 201710059373.X | 申请日: | 2017-01-24 |
公开(公告)号: | CN106919951B | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 俞俊;谭敏;郑光剑 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/583 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 点击 视觉 融合 监督 双线 深度 学习方法 | ||
1.一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于包括如下步骤:
步骤(1)、点击数据预处理:
从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;
步骤(2)、点击与视觉特征融合的深度模型构建:
对样本基于可靠性加权,构建一个带权重的三通道深度神经网络模型,其中两个通道提取图像视觉特征,第三通道处理步骤(1)的点击特征;将视觉与点击特征通过特征连接层进行融合;
步骤(3)、BP学习模型参数:
通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练,直至整个网络模型收敛;
步骤(4)、学习样本可靠性:
根据步骤(2)的神经网络模型,计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可靠性,利用可靠性给样本加权;
步骤(5)、模型训练:
重复步骤(3)和(4),迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛;
步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并,具体如下:
1-1.从点击数据集中提取出图像i对应的文本构成点击特征其具体公式如下:
其中ci,j是图像i和文本j对应的点击量;
1-2.为了得到短而紧凑的特征向量,对点击特征降维从而减小计算量并解决文本语义重复问题,利用了K均值聚类的方法间接的对文本进行聚类,从而得到了一个文本聚类的索引并将同一类的文本的点击量相加,得到新的点击特征ui,具体如公式2所示:
其中表示第j个文本类;
步骤(2)所述的构建一个点击与视觉特征融合的深度模型,将视觉特征和点击特征连接在一起,具体如下:
2-1.构建一个三通道的网络框架结构W-C-BCNN,其中前两通道采用双线性卷积神经网络提取图像的视觉特征zi,第三通道提取步骤(1)中得到的对应图像的点击特征ui;然后将提取的视觉特征和点击特征通过连接层拼接起来,输出一个同时具有视觉和语义表达能力的特征oi,具体如公式3所示:
oi=(zi,μui)=(zi,1,zi,2,…,μui,1,μui,2,…) (公式3)
其中μ表示权重参数;
2-2.给定n个训练数据其中yi∈[1,2,...,N]表示每个数据的类别标签,通过解决弱监督双线性深度学习问题得到网络模型参数θ和样本可靠性变量w*,从而训练整个网络模型直至收敛,具体如公式4所示:
其中,权重w*表示优化后得到训练样本可靠性,w表示优化前的权重,特别地,当权重始终为1时,称该网络框架为C-BCNN,由于权重是在不断迭代优化中学习得到的,所以称之为弱监督学习问题;P(w)为权重先验项,是基于点击数据的点击量来建模估计的,具体如公式5所示:
其中是归一化后的点击向量;T(·)是一种尺度变换的目标函数,控制wc尺度范围的对数变换函数,用于处理图片的点击数不平衡的情况;S(G,w)为平滑项,是根据图像视觉的一致性的假设,从而对图像进行正则化处理,具体如公式6所示:
其中gi,j表示样本相似度矩阵G中的值,该深度模型是利用视觉特征z的相似度来计算和构建的。
2.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(3)所述的利用反向传播算法训练网络模型参数直至收敛,具体如下:
3-1利用反向传播算法训练得到模型参数θ,让dl/dx作为损失函数对输入的梯度,则根据链式法则可以得到关于两个深度网络A和B的反向传播公式,具体如公式7所示:
其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710059373.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:扎毛机
- 下一篇:一种用于不同年龄段的简易升降学习桌