[发明专利]一种在电子地图中爬取地标信息的系统和方法有效
申请号: | 201710109082.7 | 申请日: | 2017-02-27 |
公开(公告)号: | CN106897432B | 公开(公告)日: | 2020-07-24 |
发明(设计)人: | 罗剑明 | 申请(专利权)人: | 广州视源电子科技股份有限公司;广州视睿电子科技有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/951;G06F16/9537 |
代理公司: | 北京知元同创知识产权代理事务所(普通合伙) 11535 | 代理人: | 刘元霞;张祖萍 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子地图 中爬取 地标 信息 系统 方法 | ||
一种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取,查找符合用户设置的地标命名规则关键词的地标信息。本发明还提供根据所述系统爬取地标信息的方法。本发明提出的技术方案能够爬取电子地图上较新的所匹配的不同类型的地标数据,并且通过获取的地标信息数据量调整坐标移动步长,模拟人工缩放操作,能够提高电子地图数据的爬取效率。
技术领域
本发明属于信息搜索技术领域,具体涉及一种在电子地图中爬取地标信息的系统和方法。
背景技术
网络爬虫,或者称爬虫,是一种自动提取网页的程序,用于为搜索引擎从万维网下载网页,是搜索引擎的重要组成部分。传统爬虫是从一个或若干初始网页的URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
目前,若要获取某类地标信息,如全国学校地理位置信息,需要通过网络爬虫在教育类网站中爬取所有学校信息,但是,这类网站信息很可能没有更新,导致获得的信息不全或者不准确。并且,若需要获取其他类地标信息,例如全国酒店地理位置信息,需要通过网络爬虫在酒店类网站中爬取所有酒店信息,因此,需要重新编写网络爬虫程序,不仅需要重复劳动,而且还同样面临网站信息未更新导致的获得信息不全或者不准确的问题。
发明内容
为了解决现有技术中存在的网站信息未更新导致的获取信息不全或不准确以及更换地标信息需要重新编写网络爬虫程序的技术问题,本发明实施例提供了一种在电子地图中爬取地标信息的系统和方法,技术方案如下。
一种在电子地图中爬取地标信息的系统,包括调度器、地图信息获取管理器、地图信息解析器和结果处理器,所述系统用于对指定地图坐标范围内的多个地图坐标区域进行地标信息爬取;
调度器用于向地图信息获取管理器提供待抓取的地图坐标区域;
地图信息获取管理器用于从电子地图中获取调度器提供的待抓取的地图坐标区域的地图数据;
地图信息解析器用于对地图信息获取管理器获取到的地图数据进行解析,提取地标信息;
结果处理器用于对地图信息解析器提取的地标信息进行处理,查找与地标命名规则关键词匹配的地标信息。
进一步,本发明实施例的系统包括搜索范围控制器,搜索范围控制器用于对指定地图坐标范围和地标命名规则关键词进行管理,并确定调度器向地图信息获取管理器提供的待抓取的地图坐标区域。
进一步,在当前地图坐标区域抓取结束时,搜索范围控制器向调度器反馈在指定地图坐标范围中的新的待抓取的地图坐标区域。
进一步,调度器根据地图信息解析器解析提取的地标信息数据量确定坐标移动步长,并反馈坐标移动步长和当前地图中心点给搜索范围控制器;
搜索范围控制器根据调度器反馈的坐标移动步长信息和当前地图中心点,确定新的地图中心点和新的待抓取的地图坐标区域,并将新的地图中心点和新的待抓取的地图坐标区域反馈给调度器。
进一步,所述系统还包括存储器,存储预设的与地标信息数据量对应的多个阈值,每个阈值区间对应一个坐标移动步长。
本发明实施例还提供一种在电子地图中爬取地标信息的方法,该方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司;广州视睿电子科技有限公司,未经广州视源电子科技股份有限公司;广州视睿电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710109082.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种日志导出方法及系统
- 下一篇:一种数据获取方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置