[发明专利]一种兴趣点名称的识别方法和装置在审
申请号: | 201510642849.3 | 申请日: | 2015-09-30 |
公开(公告)号: | CN105159885A | 公开(公告)日: | 2015-12-16 |
发明(设计)人: | 王智广 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兴趣 名称 识别 方法 装置 | ||
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种兴趣点名称的识别方法和一种兴趣点名称的识别装置。
背景技术
兴趣点(PointofInterest,POI),又可以称为“信息点”,其包含多方面的信息,如名称、类别、经度纬度等等。
在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经纬度,然后再标记下来。
正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系统来说,POI的数量在一定程度代表着整个系统的价值。
为了丰富地理信息系统的POI数据的数量,目前从网页中挖掘POI数据,大多是根据网页的结构配置合适的模板,通过模板来提取。
但是,用户并不一定会按照网页的规定去发布信息,使得这些包含POI的网站中充斥着大量的脏数据,是错误的POI数据。
例如,某个网站约定网页的一个区域是发布公司名称,但是,有的用户可能发布诸如“世界五百强企业”等数据,并非是一个真正的POI名称。
若后续应用这些错误的POI数据进行导航等操作,操作的错误率高,造成资源浪费。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种兴趣点名称的识别方法和相应的一种兴趣点名称的识别装置。
依据本发明的一个方面,提供了一种兴趣点名称的识别方法,包括:
在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
将标识同一对象的兴趣点名称设置为兴趣点名称集合;
从所述兴趣点名称集合中识别错误的第一目标兴趣点名称。
可选地,所述在网页中提取兴趣点数据的步骤包括:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
可选地,所述兴趣点数据还包括兴趣点地址;
所述将标识同一对象的兴趣点名称设置为兴趣点名称集合的步骤包括:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
可选地,所述从所述兴趣点名称集合中识别错误的第一目标兴趣点名称的步骤包括:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称。
可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤包括:
对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或多个分词;
查找所述分词在预设的兴趣点集合中的第一词频;
将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点名称的关键词,其中,X为正整数。
可选地,所述在所述兴趣点名称集合中的兴趣点名称选取关键词的步骤还包括:
当所述分词与预设的地址数据匹配时,移除所述分词。
可选地,所述依据所述关键词从所述兴趣点名称中识别错误的第一目标兴趣点名称的步骤包括:
计算所述关键词在所述兴趣点名称集合中的第二词频;
将所述第二词频最低的Y个关键词所属的兴趣点名称确定为错误的第一目标兴趣点名称,其中,Y为正整数。
根据本发明的另一方面,提供了一种兴趣点名称的识别装置,包括:
兴趣点数据提取模块,适于在网页中提取兴趣点数据;所述兴趣点数据包括兴趣点名称;
兴趣点名称集合设置模块,适于将标识同一对象的兴趣点名称设置为兴趣点名称集合;
错误兴趣点名称识别模块,适于从所述兴趣点名称集合中识别错误的第一目标兴趣点名称。
可选地,所述兴趣点数据提取模块还适于:
查找针对网页配置的模板;
在所述网页中,依据所述模板指示的位置提取兴趣点数据。
可选地,所述兴趣点数据还包括兴趣点地址;
所述兴趣点名称集合设置模块还适于:
判断所述兴趣点地址是否相同或相似;若是,则将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
可选地,所述错误兴趣点名称识别模块还适于:
在所述兴趣点名称集合中的兴趣点名称选取关键词;
依据所述关键词从所述兴趣点名称中识别错误第一的目标兴趣点名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510642849.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分流机
- 下一篇:一种结构牢固的输送绳带