[发明专利]地址数据库的建构方法及装置有效
申请号: | 201010540110.9 | 申请日: | 2010-11-10 |
公开(公告)号: | CN102024024A | 公开(公告)日: | 2011-04-20 |
发明(设计)人: | 时金;万鑫;张传明 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 数据库 建构 方法 装置 | ||
【技术领域】
本发明涉及一种地址数据库的建构方法以及装置,尤其是指一种基于学习模型的地址数据库建构方法及装置。
【背景技术】
过去十几年以来,随着互联网技术的发展,人们越来越依赖于互联网提供的丰富、快捷、及时的信息。但是如何在浩如烟海的信息中找到待搜寻的信息,成为一项迫切需要解决的问题,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google.cn)。
在众多需要搜寻的信息中,一类重要的信息是搜寻地址信息,这类的需求在搜寻在线电子地图信息时特别得到重视。所谓的在线电子地图相对于传统的纸质地图或单机的电子地图,其具有更新及时、便于查询、使用直观简洁、以及提供的信息丰富等诸多优点,目前在中国的在线电子地图提供者中比较被广泛推荐的包括百度公司的百度地图(map.baidu.com)和谷歌公司的google地图(ditu.google.cn),其中尤其以百度公司的百度地图更加满足中国使用者的使用习惯而得到了广泛应用。
其中,当在线电子地图的使用者将某个待查询地址输入在线电子地图的地址搜索框进行查询时,该待查询地址会在已建构的地址数据库中进行查询。
然而,现有的构建地址数据库技术存在若干缺陷。现有的地址数据库在建构时只是利用词典、词表、后缀关键字列表和人工总结的方式将接收到的地址数据分词后分类入地址数据库,其往往是通过人工来适应接收到的地址数据,举例说明:若接收到的地址为“中关村大街南100号”时,其首先通过词典、词表、后缀关键字列表,进行分词,如,后缀关键字列表可能是:“街”、“道”、“路”、“号”等,那么在遇到如“街”、“道”、“路”、“号”等关键字时,即在关键字后进行分词,举例说明:若接收到的地址为“中关村大街南100号”,则通过后缀关键字列表,将该地址分词为“中关村大街”、“南”、“100号”;在分词结束后,再通过人工适应的方式,为分词后的地址信息加入属性,其属性标注顺序为:道路名-方位名-门牌名,如在“中关村大街”中加入属性为道路名、“南”加入方位名、“100号”中加入属性为门牌名。然而,若接收到的地址为“中关村大街100号南”,除通过上述分词将其分为“中关村大街”、“100号”、“南”后,还要为该分词后的地址信息添加新的属性标注顺序为:道路名-门牌名-方位名,并对该分词后的地址加入属性,如在“中关村大街”中加入属性为道路名、“100号”中加入属性为门牌名、“南”加入方位名。
上述的地址数据建构方法,因要不断的加入新的属性标注顺序,从而导致处理过程较为复杂,效率较低,另外,只是通过词典、词表、后缀关键词的方式进行分词,会导致分词准确率较低。
因此,需要提供一种改进的地址数据库建构方法及装置。
【发明内容】
本发明的目的在于提供一种经过改进的地址数据库的建构方法,所述的方法基于输入的大量原始地址数据建立范式地址数据库。
本发明的另一目的在于提供一种经过改进的地址数据库的建构装置,所述的装置基于输入的大量原始地址数据建立范式地址数据库。
相应地,本发明的一种实施方式的地址数据库的建构方法包括:
一种范式地址数据库的建构方法,包括:
S1、获取原始地址数据;
S2、分词模型对所述原始地址数据分类并产生范式地址;
S3、将所述范式地址归类入范式地址数据库。
作为本发明的进一步改进,所述S2包括以下步骤:
所述分词模型对所述原始地址进行分词;
通过所述分词产生所述范式地址。
作为本发明的进一步改进,所述的S1包括:
判断所述的原始地址数据是否与范式地址的格式匹配;
若匹配,则直接输出所述原始地址数据作为范式地址。
作为本发明的进一步改进,所述的S1包括:
判断所述的原始地址数据是否与范式地址的格式匹配;
若不匹配,则进入S2。
作为本发明的进一步改进,在所述S1后还包括地址统计分析步骤:所述的地址统计分析步骤对原始地址数据进行统计分析,产生范式地址。
作为本发明的进一步改进,所述S1包括:
判断所述的原始地址数据是否与范式地址的格式匹配;
若不匹配,则进入地址统计分析步骤。
作为本发明的进一步改进,所述的地址统计分析步骤包括:
识别未知地址信息前的第一地址信息;
识别未知地址信息后的第二地址信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010540110.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分组交换域业务处理方法及装置
- 下一篇:板式多通道异形腔热超导管