[发明专利]一种基于卷积神经网络的图像爬虫优化方法有效

专利信息
申请号: 201610839591.0 申请日: 2016-09-22
公开(公告)号: CN106503047B 公开(公告)日: 2019-10-11
发明(设计)人: 傅晨波;肖浩泉;宣琦;方宾伟;王金宝;郑雅羽;俞立 申请(专利权)人: 浙江工业大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/583;G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。
搜索关键词: 一种 基于 卷积 神经网络 图像 爬虫 优化 方法
【主权项】:
1.一种基于卷积神经网络的图像爬虫优化方法,其特征在于:所述方法包括以下步骤:S1:利用网络爬虫从各网站爬取图像数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;S2:使用Free_Noisy数据集训练NoisyCNN网络,得到一个初始识别子类的图像分类器,对输入的图像输出该图像属于每一子类的概率,按概率从大到小排列子类名单;S3:利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期利用NoisyCNN网络筛选数据;S4:利用NoisyCNN网络对数据判断,将数据将分为Weak_Noisy和Pure_Noisy;所述步骤S4包括以下步骤:S4.1:使用NoisyCNN网络对爬虫获取到的数据进行判决;S4.2:如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符,则认为该数据有很大可能属于目标分类,判定该数据属于Weak_Noisy,保存该数据至Weak_Noisy数据集;S4.3:如果数据标签与NoisyCNN判定的前五个可能的标签,没有一个相符,则认为该数据标签与其真实分类不符,判定该数据属于Pure_Noisy,保存该数据至Pure_Noisy数据集;S4.3:执行步骤S5;S5:使用扩充后的数据更新NoisyCNN网络;S6:判断Pure_Noisy数据量的合理性:统计Pure_Noisy数据集占总数据集的比例,若未超过预设阈值则执行步骤S3,否则执行步骤S7;S7:停止爬虫。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610839591.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top