[发明专利]基于地址文本的单元区域识别方法、装置和计算机设备在审
申请号: | 202010888561.5 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112052672A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 胡林涛;张定棋;解飞;蓝媛青;吁卫燕;胡贵根 | 申请(专利权)人: | 丰图科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/903 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 毛丹 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 地址 文本 单元 区域 识别 方法 装置 计算机 设备 | ||
1.一种基于地址文本的单元区域识别方法,其特征在于,所述方法包括:
获取目标地址文本;
对所述目标地址文本进行地址分词,得到属于各地址层级的词条;
根据每个词条在预配置的地址索引数据集中查询相匹配的第一地址数据,得到所述每个词条对应的第一地址数据集;
对各词条对应的第一地址数据集进行综合处理得到第二地址数据集;所述第二地址数据集中包括至少一条第二地址数据;
将所述第二地址数据集发送至终端;发送的第二地址数据集,用于指示所述终端从所述第二地址数据中选取与所述目标地址文本相匹配的目标地址数据,并从所述目标地址数据中提取所述目标地址文本对应的单元区域。
2.根据权利要求1所述的方法,其特征在于,所述根据每个词条在预配置的地址索引数据集中查询相匹配的第一地址数据,得到所述每个词条对应的第一地址数据集,包括:
确定所述目标地址文本对应的行政区域标识;
从预配置的地址索引数据集中筛选与所述行政区域标识相匹配的地址索引数据子集;
在所述地址索引数据子集中查询与每个词条相匹配的第一地址数据,得到所述每个词条对应的第一地址数据集。
3.根据权利要求1所述的方法,其特征在于,所述对各词条对应的第一地址数据集进行综合处理得到第二地址数据集,包括:
按照地址层级对所述目标地址文本中的词条进行聚类,得到第一类词条集合、第二类词条集合与第三类词条集合;
将所述第一类词条集合中的每个词条对应的第一地址数据集,确定为第一基础数据集;
对所述第二类词条集合中各个词条对应的第一地址数据集取并集,得到第二基础数据集;
对所述第一基础数据集与所述第二基础数据集取交集,得到目标基础数据集;
将所述目标基础数据集依次与所述第三类词条集合中的每个词条对应的第一地址数据集取交集,得到第二地址数据集。
4.根据权利要求1所述的方法,其特征在于,所述将所述第二地址数据集发送至终端,包括:
将所述目标地址文本分别与所述第二地址数据集中的每条第二地址数据进行相似度计算,得到相应的文本相似度;
按照所述文本相似度对所述第二地址数据集中的第二地址数据进行排序,得到排序后的第二地址数据集;
将所述排序后的第二地址数据集发送至终端。
5.根据权利要求1所述的方法,其特征在于,所述获取目标地址文本,包括:
获取初始地址文本;
对所述初始地址文本进行规范化处理,得到待识别单元区域的目标地址文本。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标地址文本进行地址分词,得到属于各地址层级的词条,包括:
对所述目标地址文本逐字生成每个字对应的字向量;
根据所述字向量得到所述目标地址文本对应的目标字向量序列;
将所述目标字向量序列输入已训练好的地址文本分词模型,得到相应的目标标签序列;
根据所述目标标签序列得到属于各地址层级的词条。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述地址索引数据集的配置步骤,包括:
获取标准地址数据集;所述标准地址数据集中包括多条标准地址数据,每条标准地址数据包括标准地址文本与所述标准地址文本对应的单元区域;
对所述每条标准地址数据分别进行编译得到相应的地址索引数据;
根据各所述标准地址数据对应的地址索引数据得到相应地址索引数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丰图科技(深圳)有限公司,未经丰图科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010888561.5/1.html,转载请声明来源钻瓜专利网。