[发明专利]一种主题网络爬虫方法、装置及介质有效
申请号: | 201910334543.X | 申请日: | 2019-04-24 |
公开(公告)号: | CN110069690B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 杨承鑫 | 申请(专利权)人: | 成都映潮科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06N3/08;G06N3/12 |
代理公司: | 成都创新引擎知识产权代理有限公司 51249 | 代理人: | 向群 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 网络 爬虫 方法 装置 介质 | ||
本发明涉及一种主题网络爬虫方法、装置及介质,所述方法包括:采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。本发明采用遗传算法+BP神经网络模型以达到减少前期盲目搜索,防止收敛到局部最优的目的,解决了传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联度不强的问题。
技术领域
本发明涉及数据挖掘和搜索引擎技术领域,特别涉及一种主题网络爬虫方法、装置及介质。
背景技术
随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高,传统主题爬虫的局限性,如精度低,覆盖面低,数据获取不完整,主题关联性低等缺点限制了主题爬虫的发展。为了追求更好的爬虫效果,提高主题关联性,提高准确性以及爬虫的效率,忽略掉与主题无关的网页,只针对于关联性强的网页进行数据采集是本领域技术人员亟需解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供了一种主题网络爬虫方法、装置及介质,用于解决传统主题爬虫中出现的精度低,覆盖面低,数据不完整,主题关联性不强等问题。
第一方面,本申请提供了一种主题网络爬虫方法,所述方法包括:
采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
第二方面,提供一种主题网络爬虫系统,所述系统包括:
样本采集模块,用于采集给定网站中的产品信息,对所述产品信息按照主题进行分类标注,得到训练样本;
模型训练模块,用于利用训练样本对遗传算法+BP神经网络模型进行训练,得到训练好的模型;
目标采集模块,用于输入要采集的目标网站url、采集的主题、采集阈值,对目标网站进行数据采集,采用超链接广度优先遍历策略,获取与主题同级的页面;
目标输出模块,对获取到的页面进行数据清洗,将清洗完成后的数据输入训练好的模型中,得到优解,并对优解对应的页面进行采集、存储,并输出关键字段。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行上述第一方面所述的方法。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都映潮科技股份有限公司,未经成都映潮科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334543.X/2.html,转载请声明来源钻瓜专利网。