[发明专利]一种用电地址的管理方法和装置在审
申请号: | 202010627201.X | 申请日: | 2020-07-01 |
公开(公告)号: | CN111859849A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 张洋俐君;周建宏;文朝 | 申请(专利权)人: | 邦道科技有限公司 |
主分类号: | G06F40/103 | 分类号: | G06F40/103;G06F40/205;G06F40/226;G06F40/279 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛 |
地址: | 214028 江苏省无锡市新吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用电 地址 管理 方法 装置 | ||
本发明实施例提供一种用电地址的管理方法和装置,所述方法包括:从数据库中获取用电地址的地址串,对所述地址串通过预设的语法规则进行拆分,获取地址信息,累积地址元数据;根据所述地址信息,获取电子地图上与所述地址信息对应的地图地址信息,并根据所述地图地址信息对所述地址信息进行优化,获取标准地址串。通过对地址串的拆分以及对地址信息的优化获取标准地址串,降低了对于训练数据的依赖,使得在训练数据量较小时也能有较高的地址解析准确率。
技术领域
本发明涉及自然语言处理领域,尤其涉及一种用电地址的管理方法和装置。
背景技术
许多公司由于经营业务常常需要获取并保存大量用户的地址信息,但是由于客户填报的地址信息通常都没有严格按照预定的格式填写,因此,需要对地址进行解析处理获取企业需要的地址形式。例如许多早期电力公司营销系统和客户服务系统中,往往存在着录入数据库的地址数据规模巨大、录入出错、信息过期、内容不完善等各类问题。由于地址结构本身的复杂性,我国长期以来对地址的书写未形成统一的规范,其非结构化的文本信息包含了区域隶属关系和空间位置关系等重要语义信息。
由于缺少一种对地址串质量进行有效管控的高效技术支撑手段,导致对于地址梳理工作主要以人工为主,周期过长且梳理速度慢,甚至还比不上更新的速度,因此几乎无法达到预期的效果。因此需要一种地址解析的方法快速获取需要的地址格式。
目前,现有的进行地址解析的方法主要是基于统计的解析方法。基于统计的解析方法是将地址解析看作一个命名实体识别的过程,其难点在于如何把控同义地址的界定。由于基于统计的解析方法在解析时需要大量高质量的训练数据,解析模型对数据依赖性强,因此存在当训练数据量较小时解析准确率低的问题。因此,设计一种地址解析方法降低对于训练数据的依赖,使得在训练数据量较小时也能有较高的地址解析准确率就成为亟待解决的问题。
发明内容
本发明实施例提供一种用电地址的管理方法和装置,用以解决现有技术中对于训练数据的依赖,使得在训练数据量较小时也能有较高的地址解析准确率。
第一方面,本发明实施例提供一种用电地址的管理方法,包括:
从数据库中获取用电地址的地址串,对所述地址串通过预设的语法规则进行拆分,获取地址信息,不断累积地址元数据;
根据所述地址信息,获取电子地图上与所述地址信息对应的地图地址信息,并根据所述地图地址信息对所述地址信息进行优化,获取标准地址串。
可选地,所述对所述地址串通过预设的语法规则进行拆分,获取地址信息具体包括:
对所述地址串通过规则引擎进行要素识别、地址切分、语义纠正和/或文本正则化处理,获取地址信息。
可选地,所述并根据所述地图地址信息对所述地址信息进行优化,获取标准地址串具体包括:
将所述地址信息与地图地址信息进行对比,获取所述地址信息是否真实存在的判定结果;
根据所述判定结果,对所述地址信息按照预设方法进行处理,获取标准地址串。
可选地,所述根据所述判定结果,对所述地址信息按照预设方法进行处理,获取标准地址串具体包括:
若所述地址信息是真实存在的,将所述地址信息发送至地址仓库,并按照所述地址信息的隶属关系生成对应的地址拓扑树,根据所述地址拓扑树按照预设生成算法生成标准地址串;
若所述地址信息是不真实存在的,则将所述地址信息重新通过预设的语法规则进行拆分,获取新的地址信息及其对应的新的判定结果,并根据所述新的判定结果获取标准地址串。
可选地,所述并根据所述新的判定结果获取标准地址串具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邦道科技有限公司,未经邦道科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010627201.X/2.html,转载请声明来源钻瓜专利网。