[发明专利]一种基于预分类和特征学习抗噪的网络信息检索方法在审
申请号: | 201811548333.2 | 申请日: | 2018-12-18 |
公开(公告)号: | CN109697257A | 公开(公告)日: | 2019-04-30 |
发明(设计)人: | 潘颋璇;王斌 | 申请(专利权)人: | 天罡网(北京)安全科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06N3/04;G06N3/08 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预分类 网络信息检索 特征学习 抗噪 查询数据 查询信息 反馈信息 分类函数 激活函数 检索效率 结果提供 抗噪性能 快速检索 神经网络 提取特征 图像信息 网络数据 网络信息 网络训练 线性单元 学习训练 训练网络 余弦距离 节点数 连接层 数据集 相似度 度量 可用 压差 存储 文本 查询 传播 网络 | ||
本发明一种基于预分类和特征学习抗噪的网络信息检索方法,可用于包括文本和图像信息的网络信息快速检索。首先使用深度学习训练网络,选用VGG16的16层深度神经网络,用整流线性单元作为激活函数,在每个完全连接层后添加一个压差层。最后一个完全连接的层具有的节点数为N级,使用softmax函数作为其分类函数。网络训练好后,数据集通过训练网络以前向传播的方式提取特征,用softmax从最后一层获得预分类结果,数据预分类结果提供反馈信息,即属于同一类别网络数据的特征应存储在一起。对新来的查询数据,使用余弦距离度量查询信息与查询中属于同一类别的信息之间的相似度。本发明具有检索效率高,抗噪性能强的优势。
技术领域
本发明涉及一种基于预分类和特征学习抗噪的网络信息检索方法,可广泛应用于网络图像查找、文本比对和网络公共安全等领域。属于机器学习、信息处理领域。
背景技术
随着近些年来互联网技术和云技术的飞速发展,网络信息以爆炸式的方式快速增长,如何从这些海量数据中快速有效地检索到用户所关注的网络信息,成为近些年来国内外研究者的热门研究方向。网络信息检索技术,可被广泛应用于医学信息检索、搜索引擎、网络安全监控等与民生息息相关的领域。
目前有很多用于网络信息检索的方法,经过对现有文献调研,可将包括文本和图像在内的网络信息检索方法分为两类:一类是基于文字的网络信息检索,该类方法中用户输入需查询的关键词,系统将关键词与数据库中描述网络信息的文字进行匹配,返回匹配度高的文本或者图片。另一类是基于内容的网络信息检索,该类方法中网络信息内容的描述不再依赖于文字标注,而是自动提取信息的中高层语义特征;检索的匹配方式也不再是关键词之间的匹配,而是文本语义内容或者图像语义内容之间的相似度计算,成为目前研究者最青睐的研究方向。
传统的基于内容的网络信息检索方法,如B Bassett和NA Kraft于2013年发表在《IEEE International Conference on Program Comprehension(电气和电子工程师协会国际会议)》中的论文“Structural information based term weighting in textretrieval for feature location”,针对文本检索中项的权重计算源自自然语言环境,旨在用于非结构化文档,因此可能不适合与源代码一起使用,提出了一种新的项加权方法,使用源代码中的结构信息分配项的权重,完成特征定位。此外,AKJA Vailaya于1996年发表在《Pattern Recognition(模式识别)》中的论文“Image Retrieval using Color andShape”,选用纹理和颜色等特征作为图像的特征表示,该方法依赖于可以挖掘视觉线索的图像特征,如颜色和形状。与常规方法不同,该方法不提取单一特征,而是将颜色特征和形状特征结合起来作为图像的特征描述。尽管基于内容的网络信息检索方法已经取得了较大的成果,但是这些方法在提取网络信息的特征时,都没有考虑数据的分布信息,这些信息往往表征了网络数据的中高层语义含义,对于网络信息检索非常重要。
发明内容
本发明的目的在于针对现有方法的不足,提出一种基于预分类和特征学习抗噪的网络信息检索方法,本发明的特征从数据(包括文本和图像类网络数据)中学习得出。
本发明一种基于预分类和特征学习抗噪的网络信息检索方法,通过下述技术方案来实现,具体步骤如下:
步骤一、采用深度学习训练网络;
深度学习模型一般由卷积层和全连接层组成,其中最后的完整连接层是softmax分类器。卷积神经网络体系结构的形式对于要实现的功能很重要。本发明使用名为VGG16的16层深度神经网络,它在多种任务上具有良好的分类性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天罡网(北京)安全科技有限公司,未经天罡网(北京)安全科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811548333.2/2.html,转载请声明来源钻瓜专利网。