[发明专利]地址标准化处理方法、装置、设备及在线搜索系统在审
申请号: | 201911101686.2 | 申请日: | 2019-11-12 |
公开(公告)号: | CN112861532A | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 朱宏波;张红梅 | 申请(专利权)人: | 北京四维图新科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/387;G06F16/35;G06F16/33 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;臧建明 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 标准化 处理 方法 装置 设备 在线 搜索 系统 | ||
1.一种地址标准化处理方法,其特征在于,包括:
对待处理的地址数据进行数据处理,得到所述待处理的地址数据对应的第一字符串;
从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,其中,地址类型词为用于表示地址要素的词,地址实体词为用于表示地址名称的词;
根据所述预设的地址类型词和所述地址实体词,采用游标式边界策略获取标准化的地址数据。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
根据所述标准化的地址数据建立索引,构建标准地址数据库。
3.根据权利要求1或2所述的方法,其特征在于,该方法还包括:
基于用户在线使用信息,提取热度信息,并利用所述热度信息更新所述标准地址数据库;和/或
根据所述标准化地址数据中所包括的地址实体词,对缺失的兴趣点POI及道路信息进行预测分析,并将预测分析得到的缺失地址信息补充至所述标准地址库和/或用于指导外业采集。
4.根据权利要求1、2或3所述的方法,其特征在于,所述从所述第一字符串中提取与预设的地址类型词所对应的地址实体词,进一步包括:
从所述第一字符串的第一位置开始,查找与所述预设的地址类型词对应的第一字符单元;
将所述第一字符单元在所述第一字符串中的位置确定为第一地址实体词的右边界;
在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界;
将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词。
5.根据权利要求4所述的方法,其特征在于,所述在所述右边界和所述第一字符串的第一位置之间,查找所述第一地址实体词的左边界,进一步包括:
将位置指针由当前位置向前移动至前一个字符单元在所述第一字符串中的位置,并判断所述位置指针是否到达第一位置;
若否,则判断所述位置指针所指示的字符单元是否为英文单词;
若是英文单词,则判断当前的英文单词是否为预设的地址类型词,若是,则将当前的英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置设置为所述第一地址实体词的左边界,若否,则判断当前的英文单词和所述右边界之间是否存在拼音单词,若存在,则将当前英文单词之后邻近的空格符号和/或第二预设符号在所述第一字符串中的位置确定为所述第一地址实体词的左边界。
6.根据权利要求5所述的方法,其特征在于,所述将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词之后,所述方法还包括:
将所述第一字符单元之后邻近的空格符号和/或第二预设符号在所述字符串中的位置确定为所述第一字符串的第一位置。
7.根据权利要求4至6任一项所述的方法,其特征在于:
所述将所述第一地址实体词的右边界和第一地址实体词的左边界中所包括的字符单元确定为第一地址实体词之后,所述方法还包括:若所述左边界之前邻近的字符单元为门牌号类型的字符单元,或者,若所述右边界之后邻近的字符单元为门牌号类型的字符单元,则根据所述门牌号类型的字符单元确定门牌号类型的地址实体词;和/或,
所述从所述字符串中提取预设的地址类型词以及与各所述预设的地址类型词对应的地址实体词之前,所述方法还包括:建立用于查找边界的类型词库和/或同义词词库;其中,所述类型词库中包括预设的地址类型词所对应的至少一个预设的字符单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京四维图新科技股份有限公司,未经北京四维图新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911101686.2/1.html,转载请声明来源钻瓜专利网。