[发明专利]一种互联网位置图片数据的获取方法与装置在审
申请号: | 201910049513.4 | 申请日: | 2019-01-18 |
公开(公告)号: | CN109766403A | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 王丽娜;杨飞;李响;姚妮;胡涛;俞鑫楷 | 申请(专利权)人: | 郑州轻工业学院 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/95;G06F16/50 |
代理公司: | 郑州睿信知识产权代理有限公司 41119 | 代理人: | 吴敏 |
地址: | 450000 河南*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格网 位置图片 数据包 目标区域 属性信息 图片链接 互联网 图片共享网站 筛选 格网区域 获取位置 利用位置 数据抓取 链接 剔除 解析 地理 图片 | ||
本发明提供一种互联网位置图片数据的获取方法与装置,属于数据抓取技术领域。该方法包括:1)对目标区域进行格网划分,得到目标区域格网;2)根据目标区域的人口密度数据对目标区域格网进行筛选,剔除人口密度低于设定值的格网区域;3)利用位置图片共享网站找到包含位置图片属性信息的数据包,根据筛选后的各格网所在地理范围构造各格网对应的数据包链接Request URL,以得到与格网对应的数据包,所述位置图片属性信息包括地理范围、图片ID、图片链接;4)对得到的所有数据包进行解析,根据数据包中的图片链接获取位置图片。本发明能够大量高效地获取互联网位置图片数据。
技术领域
本发明涉及一种互联网位置图片数据的获取方法与装置,属于数据抓取技术领域。
背景技术
互联网位置图片数据是指广泛存在于互联网上的带有空间位置信息与时间标识的图片数据,主要来源于当下热门的互联网位置图片共享网站,例如Panoramio、FaceBook、Flickr、微博等。目前,类似的相关研究主要集中于从互联网上获取文本形式的数据(称之为互联网位置文本数据),而对互联网位置图片数据的研究相对稀少。
互联网位置图片数据和互联网位置文本数据同属互联网位置数据范畴。相比互联网位置文本数据,互联网位置图片数据在表达位置信息时更加生动形象,其基本构成一般是显示特定地理事物或现象的位置图片,外加带有位置、时间等属性信息的文本标签,如图1所示。
互联网位置图片数据的获取,主要是从各类图片共享网站上获取带有空间位置信息和时间标识的图片,以及图片对应的地理元信息(如经纬度)、图片描述元信息(如作者信息、标签信息、描述信息、评论信息等),然后进行结构化处理,为位置图片数据的管理、分析和应用提供数据支撑。
经研究发现:位置图片共享网站提供的数据总量与其底图的缩放级别,即比例尺的大小是正相关的。比例尺越大,对于同一范围的地理区域,网站提供和显示的位置图片数量也越大,因此在小比例尺条件下对网站地图上某个区域只进行一次全范围的爬虫无法完整获取该区域内的位置图片数据。同时各网站上的位置图片在全球范围内的分布呈现不均匀性,如,各大洲的位置图片相比各大洋更密集,中国的位置图片数量相比蒙古更密集,其中最为关键的影响因素是各区域的人口密度,对于人口密度低区域也进行位置图片数据获取,不仅得不到相关数据,还浪费时间。
目前,众多图片共享网站都提供访问位置图片的API接口,或通过动态加载数据包(一般为json格式,数据包的URL地址即填充参数的API)的形式提供位置图片。对上述两种情况,用户获取数据的本质上是一样的,即用户都是根据地理范围调用API请求数据,然后网站服务器向用户返回含有位置图片信息的数据。因此,从图片共享网站上少量地获取位置图片并不困难,但是受限于图片共享网站采取的反爬虫策略、API调用频次限制等,要大量并高效地获取位置图片并非易事。因此,采用常规的数据获取方法获取互联网位置图片数据,只能得到极少量的、局部的数据,而不能获得大量乃至全部的数据,且获取效率不高。
发明内容
本发明的目的是提供一种互联网位置图片数据的获取方法与装置,用以解决目前采用常规的数据获取方法不能获得大量的互联网位置图片数据且数据获取效率低的问题。
为实现上述目的,本发明提供了一种互联网位置图片数据的获取方法,包括以下步骤:
1)对目标区域进行格网划分,得到目标区域格网;
2)根据目标区域的人口密度数据对目标区域格网进行筛选,剔除人口密度低于设定值的格网区域;
3)利用位置图片共享网站找到包含位置图片属性信息的数据包,根据筛选后的各格网所在地理范围构造各格网对应的数据包链接Request URL,以得到与格网对应的数据包,所述位置图片属性信息包括地理范围、图片ID、图片链接;
4)对得到的所有数据包进行解析,根据数据包中的图片链接获取位置图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业学院,未经郑州轻工业学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910049513.4/2.html,转载请声明来源钻瓜专利网。