[发明专利]一种基于卷积神经网络的图像爬虫优化方法有效
申请号: | 201610839591.0 | 申请日: | 2016-09-22 |
公开(公告)号: | CN106503047B | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 傅晨波;肖浩泉;宣琦;方宾伟;王金宝;郑雅羽;俞立 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/583;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于卷积神经网络的网络爬虫优化方法,包括以下步骤:1)利用网络爬虫从各网站爬取初始数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;2)使用初始数据集训练NoisyCNN网络;3)利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期执行步骤4;4)利用NoisyCNN网络对数据筛选,将数据将分为Weak_Noisy和Pure_Noisy;5)使用扩充后数据更新NoisyCNN网络;6)判断Pure_Noisy数据量是否合理,决定是否继续爬虫;7)停止爬虫。本发明能有效减少数据噪声、提升工作效率。 | ||
搜索关键词: | 一种 基于 卷积 神经网络 图像 爬虫 优化 方法 | ||
【主权项】:
1.一种基于卷积神经网络的图像爬虫优化方法,其特征在于:所述方法包括以下步骤:S1:利用网络爬虫从各网站爬取图像数据,人工将数据分为无噪声数据集Free_Noisy和完全噪声数据集Pure_Noisy;S2:使用Free_Noisy数据集训练NoisyCNN网络,得到一个初始识别子类的图像分类器,对输入的图像输出该图像属于每一子类的概率,按概率从大到小排列子类名单;S3:利用网络爬虫开始对主流搜索引擎和图像分享网站中搜集大量目标分类的图像数据,同时定期利用NoisyCNN网络筛选数据;S4:利用NoisyCNN网络对数据判断,将数据将分为Weak_Noisy和Pure_Noisy;所述步骤S4包括以下步骤:S4.1:使用NoisyCNN网络对爬虫获取到的数据进行判决;S4.2:如果数据标签与NoisyCNN判定的前五个可能的标签中一个相符,则认为该数据有很大可能属于目标分类,判定该数据属于Weak_Noisy,保存该数据至Weak_Noisy数据集;S4.3:如果数据标签与NoisyCNN判定的前五个可能的标签,没有一个相符,则认为该数据标签与其真实分类不符,判定该数据属于Pure_Noisy,保存该数据至Pure_Noisy数据集;S4.3:执行步骤S5;S5:使用扩充后的数据更新NoisyCNN网络;S6:判断Pure_Noisy数据量的合理性:统计Pure_Noisy数据集占总数据集的比例,若未超过预设阈值则执行步骤S3,否则执行步骤S7;S7:停止爬虫。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610839591.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种多手机远程操控系统及方法
- 下一篇:提高天线测试精度的方法及系统
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序