[发明专利]一种基于分词的用户地址数据清洗方法有效
申请号: | 201810001145.1 | 申请日: | 2018-01-02 |
公开(公告)号: | CN108228825B | 公开(公告)日: | 2019-02-15 |
发明(设计)人: | 韩金丽;李洪根;张大兵;赵新磊 | 申请(专利权)人: | 北京市燃气集团有限责任公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F17/27 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100035 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户地址数据 元数据库 标准地址 分词 清洗 数据清洗 特征字符 子数据 构建 匹配 读取 地址匹配 数据修正 有效解决 有效匹配 原始数据 数据源 有效地 工作量 存储 | ||
1.一种基于分词的用户地址数据清洗方法,其特征在于:所述方法包括如下步骤,
步骤1,构建元数据库,所述元数据库中存储有标准地址数据,所述标准地址数据中包含与地址相关的所有种类的特殊字符;
步骤2,读取并基于元数据库识别用户地址数据中的特征字符,然后以所述特征字符作为依据对所述用户地址数据进行分词操作,从而提取出多个地址子数据;
步骤3,将所述多个地址子数据与所述标准地址数据进行匹配,通过所述标准地址数据修正所述用户地址数据;
所述特征字符包括行政区域信息、街道信息、小区信息、楼信息、单元信息及门牌号信息;
步骤2中,包括依据小区信息进行分词操作后提取出小区地址子数据的步骤;
步骤3中,通过成功匹配的小区地址子数据和标准地址数据构建小区别名知识库;其中,所述小区别名知识库用于在以后的数据清洗过程与待清洗的地址子数据进行匹配。
2.根据权利要求1所述的基于分词的用户地址数据清洗方法,其特征在于:
步骤3中,与小区标准名称相比较,所述小区别名知识库中包括如下类型的小区别名:小区别名中包含小区全称和简称、小区别名中存在冗余信息、小区别名中数字大小不统一、小区别名错误但是其经过地理定位后与小区标准名称对应的坐标相同。
3.根据权利要求1至2中任一权利要求所述的基于分词的用户地址数据清洗方法,其特征在于:
步骤2中,包括依据楼信息进行分词操作后提取出房型地址子数据的步骤;
步骤3中,将房型地址子数据中的特殊字符进行归类,利用归类结果构建房型知识库;其中,所述房型知识库用于确定修正后的用户地址数据中的房型信息。
4.根据权利要求3所述的基于分词的用户地址数据清洗方法,其特征在于:所述房型知识库中包含四类房型:板楼、塔楼、平房及别墅。
5.根据权利要求1或4所述的基于分词的用户地址数据清洗方法,其特征在于:
步骤3中,在通过所述标准地址数据修正所述用户地址数据的过程中,如果用户地址数据中的特征字符未在标准地址数据中出现,则将多个地址子数据与标准地址数据进行模糊匹配,利用匹配成功的标准地址数据替换用户地址数据,以完成对用户地址数据的修正。
6.根据权利要求1所述的基于分词的用户地址数据清洗方法,其特征在于:
步骤1中,在构建元数据库时,将分词规则数据存储于数据库中;
步骤2中,利用所述分词规则对所述用户地址数据进行分词操作。
7.根据权利要求1所述的基于分词的用户地址数据清洗方法,其特征在于:所述用户地址数据为结构化数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市燃气集团有限责任公司,未经北京市燃气集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810001145.1/1.html,转载请声明来源钻瓜专利网。