[发明专利]一种判断网页中是否包含指定兴趣点POI的方法和装置在审
申请号: | 201510642308.0 | 申请日: | 2015-09-30 |
公开(公告)号: | CN105279246A | 公开(公告)日: | 2016-01-27 |
发明(设计)人: | 王智广 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市隆安律师事务所 11323 | 代理人: | 权鲜枝;何立春 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 判断 网页 是否 包含 指定 兴趣 poi 方法 装置 | ||
技术领域
本发明涉及数据挖掘领域,特别涉及一种判断网页中是否包含指定兴趣点POI的方法和装置。
背景技术
POI(PointofInterest),即兴趣点,是地理信息系统中重要的信息,甚至可以称为整个地图导航产业的基石。在地理信息系统中,一个POI可以是一栋房子,一个商铺,一个邮筒,一个公交站等。传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个POI的经纬度,然后再标记下来。
而在互联网中,实现了将测绘得到的底图数据制成电子地图,自然地,在电子地图中可以根据POI经纬度将其在电子地图中加以标注。现有的生活服务类平台大多拥有自己的POI数据库,可以为用户提供服务型POI数据,但POI数据库只能涵盖部分POI信息,在海量网页中依然存在着许多未被收录的POI数据,由此产生了对POI进行数据挖掘的需求。
现有技术中,通过在网页中直接查找该网页中是否存在与指定POI的名称文本数据和地址文本数据匹配的文本来进行POI的数据挖掘,然而,对于一指定POI,该POI的名称和地址都可以有多种表达方式,这样在采用文本全字匹配方式的方式进行该POI的数据挖掘时,不会挖掘到名称或地址的表达方式与选定的名称文本数据或地址文本数据不同的POI,而这其中恰恰包含了名称或地址与所需挖掘的POI的名称文本数据或地址文本数据实质上相同的POI,即造成挖掘不充分。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种判断网页中是否包含指定兴趣点POI的方法和装置。
依据本发明的一个方面,提供了一种判断网页中是否包含指定兴趣点POI的方法,包括:
将指定POI的地址文本数据转化为地址经纬度数据;获取网页中包含的地址文本数据以及对应的地址经纬度数据;根据指定POI的地址经纬度数据以及获取的所述网页中包含的地址文本数据对应的地址经纬度数据,确定所述网页中是否包含所述指定POI的地址文本数据;如果所述网页中包含所述指定POI的地址文本数据,进一步判断所述网页中是否包含所述指定POI的名称文本数据;如果所述网页中包含所述指定POI的名称文本数据,则确定所述网页中包含所述指定POI。
可选地,所述将指定POI的地址文本数据转化为地址经纬度数据包括:通过查询经纬度解析服务器,将所述指定POI的地址文本数据转化成对应的地址经纬度数据。
可选地,所述根据指定POI的地址经纬度数据以及获取的所述网页中包含的地址文本数据对应的地址经纬度数据,确定所述网页中是否包含所述指定POI的地址文本数据包括:判断所述网页中包含的地址文本数据对应的地址经纬度数据中是否存在与所述根据指定POI的地址经纬度数据相同的数据,是则确定所述网页中包含所述指定POI的地址文本数据。
可选地,该方法进一步包括:将所述指定POI的名称文本数据拆分为品牌名称文本数据和非品牌名称文本数据。
可选地,所述判断所述网页中是否包含所述指定POI的名称文本数据包括:判断所述网页中是否同时包含所述指定POI的品牌名称文本数据和非品牌名称文本数据,是则确定所述网页中包含所述指定POI的名称文本数据。
可选地,所述将所述指定POI的名称文本数据拆分为品牌名称文本数据和非品牌名称文本数据包括:如果所述指定POI的名称文本数据以特定符号分隔为两部分文本,则将其中一部分文本数据记为品牌名称文本数据,另一部分文本数据记为非品牌名称文本数据。
可选地,如果所述指定POI的名称文本数据以特定符号分隔为两部分文本,则将其中一部分文本数据记为品牌名称文本数据,另一部分文本数据记为非品牌名称文本数据包括:如果所述指定POI的名称文本数据以括号分隔为两部分文本,则将括号外的文本数据记为品牌名称文本数据,将括号内的文本数据记为非品牌名称文本数据;如果所述指定POI的名称文本数据以连接号分隔为两部分文本,则将连接号前的文本数据记为品牌名称文本数据,将连接号后的文本数据记为非品牌名称文本数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510642308.0/2.html,转载请声明来源钻瓜专利网。