[发明专利]地址文本识别方法、装置、介质、电子设备在审
申请号: | 202010457096.X | 申请日: | 2020-05-26 |
公开(公告)号: | CN111695355A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 李响;王伟 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 甄伟军 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 文本 识别 方法 装置 介质 电子设备 | ||
1.一种地址文本识别方法,其特征在于,所述方法包括:
获取待识别的地址文本;
对所述待识别的地址文本进行分词,得到包括至少一个字符串的字符串序列;
根据预先训练的地址语言模型,对所述字符串序列的至少一种特征进行检测;
在所述字符串序列的至少一种特征存在错误时,通过所述地址语言模型对所述存在错误的至少一种特征进行修正,以识别出正确的地址文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别的地址文本进行分词,包括;
获取地址词典,所述地址词典中包括地址字符串;
基于所述地址词典中的地址字符串,对所述待识别的地址文本进行分词。
3.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中的各个地址字符串对应有地址层级信息;
基于所述各个地址字符串以及地址字符串对应的地址层级信息,构建第一训练样本;
通过所述第一训练样本训练深度神经网络模型,得到所述地址语言模型。
4.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中任意两个地址字符串之间对应有关系类别信息;
基于所述各个地址字符串以及任意两个地址字符串之间对应的关系类别信息,构建第二训练样本;
通过所述第二训练样本训练深度神经网络模型,得到所述地址语言模型。
5.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中的各个地址字符串对应有相似地址字符串集合,所述相似地址字符串集合中的字符串与对应的地址字符串存在相似关系;
基于所述各个地址字符串以及地址字符串对应的相似地址字符串集合,构建第三训练样本;
通过所述第三训练样本训练深度神经网络模型,得到所述地址语言模型。
6.根据权利要求1所述的方法,所述地址语言模型通过如下方式获得:
获取全量地址的字符串集合,所述字符串集合中包括地址字符串,其中,所述字符串集合中的各个地址字符串对应有所属的一个或者多个标准字符串组;
基于所述各个地址字符串以及各个地址字符串所属的一个或者多个标准字符串组,构建第四训练样本;
通过所述第四训练样本训练深度神经网络模型,得到所述地址语言模型。
7.根据权利要求1所述的方法,其特征在于,在所述字符串序列的至少一种特征存在错误时,通过所述地址语言模型对所述存在错误的至少一种特征进行修正,具体包括如下至少一种:
在所述字符串序列中的字符串对应的层级顺序错误时,调整所述字符串序列中字符串的位置,使得所述字符串序列中字符串对应的层级顺序为升序顺序或者降序顺序;
在所述字符串序列中相邻字符串之间的关系类别存在错误时,修改所述关系类别存在错误的相邻字符串中的字符串,使得所述字符串序列中相邻字符串之间的关系类别为从属关系;
在所述字符串序列中存在相似地址字符串时,将所述相似地址字符串修改为对应的地址字符串;
在所述字符串序列中存在缺失的字符串时,补充缺失的字符串,使得所述字符串序列中的字符串组为标准字符串组。
8.一种地址文本识别装置,其特征在于,所述装置包括:
获取单元,被用于获取待识别的地址文本;
分词单元,被用于对所述待识别的地址文本进行分词,得到包括至少一个字符串的字符串序列;
检测单元,被用于根据预先训练的地址语言模型,对所述字符串序列的至少一种特征进行检测;
修正单元,被用于在所述字符串序列的至少一种特征存在错误时,通过所述地址语言模型对所述存在错误的至少一种特征进行修正,以识别出正确的地址文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010457096.X/1.html,转载请声明来源钻瓜专利网。