[发明专利]基于专业搜索引擎的爬虫策略获取图书信息的方法无效
申请号: | 201310535962.2 | 申请日: | 2013-10-31 |
公开(公告)号: | CN104598493A | 公开(公告)日: | 2015-05-06 |
发明(设计)人: | 张宇 | 申请(专利权)人: | 大连易维立方技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 无 | 代理人: | 无 |
地址: | 116000 辽宁省大连市*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 专业 搜索引擎 爬虫 策略 获取 图书 信息 方法 | ||
技术领域
本发明涉及一种基于专业搜索引擎的爬虫策略获取图书信息的方法。
背景技术
随着电子信息行业的发展电子书逐渐代替传统的纸质书。电子书是指将文字、图片、声音、影像等讯息内容数字化的出版物以及植入或下载数字化文字、图片、声音、影像等讯息内容的集存储介质和显示终端于一体的手持阅读器。代表人们所阅读的数字化出版物,从而区别于以纸张为载体的传统出版物,通过数码方式记录在以光、电、磁为介质的设备中,借助于特定的设备来读取、复制、传输。因其具有方便性,可搜寻内容,改变字体大小及字型,还可随身携带。容量大,随时可网络下载,不受地域限制,省去大量时间。因而被人们广泛接受。目前很多电子书都是章节性更新,因为版权意识加强,很多书籍都只在一些特定网站上进行更新,这就为手机推送图书服务带来了很大困难。
专业搜索引擎的爬虫策略,专业搜索引擎网络爬虫通常采用“最好优先”原则访问WEB,即为快速、有效地获得更多的与主题相关的页面(简称“回报”),每次选择“最有价值”的链接进行访问。由于链接包含于页面之中,而通常具有较高价值的页面包含的链接也具有较高的价值,因而对链接价值的评价有时也转换为对页面价值的评价。为解决上述问题提供了技术支持。
发明内容
本发明针对以上问题的提出,而研制基于专业搜索引擎的爬虫策略获取图书信息的方法。本发明采用的技术方案如下:
一种基于专业搜索引擎的爬虫策略获取图书信息的方法,其特征在于包括如下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中;
4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。
步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略略边搜索边下载。
由于采用了上述技术方案,本发明提供的方法具有:使用方便、处理速度、技术实现容易等特点。另外,该方法基于计算机系统的实现,只需将该方法编译成相应的程序即可实现对现有计算机的升级,因此其成本非常低廉适于广泛推广。
附图说明
图1为本发明所述系统的结构框图;
图2为本发明的实现流程图。
具体实施方式
如图1和图2所示一种基于专业搜索引擎的爬虫策略获取图书信息的方法,其特征在于包括如下步骤:
1)图书信息收索服务器通过有线或无线的方式连接到各图书网站上;
2)图书信息收索服务器中存储有对应网站的数字许可证书,在图书信息收索服务器登陆到上述网站后,自动匹配数字证书供网站校验;
3)图书网站校验通过后,图书信息收索服务器通过专业搜索引擎的爬虫策略略对图书网站中的更新图书信息进行搜索,一旦搜索到图书更新信息后,图书信息收索服务器便对更新的图书信息进行下载,下载的更新图书信息经过防火墙和数据过滤器后存入图书信息收索服务器本地存储器中;
4)图书信息收索服务器对存储如本地存储器的图书信息进行编译,然后发送到图书源数据库中。
步骤3)中:所述图书下载方式为通过专业搜索引擎的爬虫策略略边搜索边下载。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连易维立方技术有限公司;,未经大连易维立方技术有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310535962.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手机数据管理系统
- 下一篇:基于宽度优先搜索策略获取图书信息的方法