[发明专利]一种基于分词的用户地址数据清洗方法有效
申请号: | 201810001145.1 | 申请日: | 2018-01-02 |
公开(公告)号: | CN108228825B | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 韩金丽;李洪根;张大兵;赵新磊 | 申请(专利权)人: | 北京市燃气集团有限责任公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F17/27 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100035 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分词的用户地址数据清洗方法,该方法包括如下步骤:步骤1,构建元数据库,且元数据库中存储有标准地址数据;步骤2,读取并基于元数据库识别用户地址数据中的特征字符,然后以特征字符作为依据对用户地址数据进行分词操作,从而提取出多个地址子数据;步骤3,将多个地址子数据与标准地址数据进行匹配,通过标准地址数据修正用户地址数据。本发明不要求原始数据的规范性,对数据源的要求低,因而本发明适用范围广;通过构建实际的元数据库实现对不规范或不确定的地址进行匹配和清洗,不仅有效地降低了数据清洗工作量和数据清洗时间,而且有效解决了不规范地址匹配难的问题,实现对不规范地址的快速和有效匹配。 | ||
搜索关键词: | 用户地址数据 元数据库 标准地址 分词 清洗 数据清洗 特征字符 子数据 构建 匹配 读取 地址匹配 数据修正 有效解决 有效匹配 原始数据 数据源 有效地 工作量 存储 | ||
【主权项】:
1.一种基于分词的用户地址数据清洗方法,其特征在于:所述方法包括如下步骤,步骤1,构建元数据库,所述元数据库中存储有标准地址数据,所述标准地址数据中包含与地址相关的所有种类的特殊字符;步骤2,读取并基于元数据库识别用户地址数据中的特征字符,然后以所述特征字符作为依据对所述用户地址数据进行分词操作,从而提取出多个地址子数据;步骤3,将所述多个地址子数据与所述标准地址数据进行匹配,通过所述标准地址数据修正所述用户地址数据;所述特征字符包括行政区域信息、街道信息、小区信息、楼信息、单元信息及门牌号信息;步骤2中,包括依据小区信息进行分词操作后提取出小区地址子数据的步骤;步骤3中,通过成功匹配的小区地址子数据和标准地址数据构建小区别名知识库;其中,所述小区别名知识库用于在以后的数据清洗过程与待清洗的地址子数据进行匹配。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市燃气集团有限责任公司,未经北京市燃气集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810001145.1/,转载请声明来源钻瓜专利网。