[发明专利]一种基于预分类和特征学习抗噪的网络信息检索方法在审
申请号: | 201811548333.2 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109697257A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 潘颋璇;王斌 | 申请(专利权)人: | 天罡网(北京)安全科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/04;G06N3/08 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预分类 网络信息检索 特征学习 抗噪 查询数据 查询信息 反馈信息 分类函数 激活函数 检索效率 结果提供 抗噪性能 快速检索 神经网络 提取特征 图像信息 网络数据 网络信息 网络训练 线性单元 学习训练 训练网络 余弦距离 节点数 连接层 数据集 相似度 度量 可用 压差 存储 文本 查询 传播 网络 | ||
1.一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:该方法具体步骤如下:
步骤一、采用深度学习训练网络;
采用名为VGG16的16层深度神经网络,并使用转移学习来微调预先训练的网络;其中,卷积图层中的权重是固定的,完全连接的图层会被重新训练以输出数据图像的类别;传输模型的前两个完全连接层有512个节点;为避免拟合,使用整流线性单元ReLU作为激活函数,并在每个完全连接层后添加一个压差层;最后一个完全连接的层具有的节点数为N级,并使用softmax函数作为其分类函数;将上述学习任务作为一个多分类问题进行训练,其中最后一层的输出可以被解释为分类概率的估计;所以这个阶段的损失定义为:
其中,W和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果;
反向梯度损失函数可定义为
其中,w和b是网络参数,n是训练样本的索引,N是训练样本数,yn是标签,xn是网络输出结果;
利用梯度下降算法根据公式(2)计算w和b,并得到公式(1)损失函数的最优解;
对于一个新的查询网络信息xj,它属于类别C的概率(Prob)为:
[Prob,C]=max(WTxj+b) (3)
其中,W和b是网络参数;
步骤二、特征学习和预分类
按照步骤一进行网络训练后,数据集通过训练网络以前向传播的方式提取特征,获得了Fc2层每个网络信息的特征向量,并使用softmax从最后一层获得预分类结果;之后,数据预分类的结果提供反馈信息,即属于同一类别的网络数据的特征应该存储在一起;对于新来的查询数据,使用余弦距离来度量查询信息与查询中属于同一类别的信息之间的相似度;整个过程将分为离线处理阶段和在线处理阶段两个部分。
2.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:所述离线处理阶段流程为:
输入:网络信息数据集
输出:数据集相对应的分类
过程:S11:对数据预处理,使用中值滤波技术去除噪声;
S12:通过卷积神经网络提取数据的特征,采用的卷积神经网络为VGG16,参数权重为其在Wikipedia Links data和ImageNet上训练好的数值;卷积神经网络每一层都可表示不同的特征图,实验证明全连接层中间特征效果最好,因此提取全连接层Fc2特征;
S13:数据通过卷积神经网络后送入softmax分类器,对网络信息数据集进行分类,并将分类结果反馈到特征库中;
S14:按类别反馈对步骤S13提取的数据库特征按类别进行存储。
3.根据权利要求2所述的一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:所述的Wikipedia Links data用于文本信息检索,具体参数包括:动量为0.9,学习率为0.02,重量衰减为4*10-5;所述的ImageNet用于图像信息检索,具体参数包括:动量为0.9,学习率为0.01,重量衰减为5*10-5。
4.根据权利要求1所述的一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:所述的在线处理阶段流程为:
输入:查询网络信息
输出:与查询信息相似的N条信息
过程:S21:对查询网络数据信息预处理,使用中值滤波技术去除噪声;
S22:通过卷积神经网络提取查询数据的特征,和离线处理阶段一样,提取全连接层Fc2特征;
S23:将查询信息送入softmax分类器进行预分类,返回分类结果;
S24:根据步骤S23查询信息的分类反馈,进行相似度量;
S25:根据步骤S24的计算结果,按相似度排序输出最相似的前N条信息。
5.根据权利要求4所述的一种基于预分类和特征学习抗噪的网络信息检索方法,其特征在于:所述步骤S24具体为:寻找在数据集中的同一类别的特征库,计算该类别下网络数据集与查询信息的相似度,选择3种相似度度量方式,设De(x,y)为两条网络查询信息的欧氏距离相似度,Dc(x,y)为两条查询信息的切比雪夫距离相似度,cos(θ)为两条查询信息的余弦距离相似度,xi和yi分别表示两条查询信息的特征向量,其相似度度量公式如下所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天罡网(北京)安全科技有限公司,未经天罡网(北京)安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811548333.2/1.html,转载请声明来源钻瓜专利网。