[发明专利]地址文本识别模型的训练方法、地址的预测方法及装置在审
申请号: | 202010811886.3 | 申请日: | 2020-08-13 |
公开(公告)号: | CN112052668A | 公开(公告)日: | 2020-12-08 |
发明(设计)人: | 吴帝;殷浩;王蓉;李博涵;鄞健欢;程昆;张定棋 | 申请(专利权)人: | 丰图科技(深圳)有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
代理公司: | 深圳紫藤知识产权代理有限公司 44570 | 代理人: | 官建红 |
地址: | 518052 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 地址 文本 识别 模型 训练 方法 预测 装置 | ||
本申请提供了一种地址文本识别模型的训练方法、地址的预测方法及装置,该训练方法包括:获取待训练地址文本样本;对待训练地址文本样本进行向量化,得到文本内容向量序列和文本位置向量序列;对文本内容向量序列和文本位置向量序列进行拼接,得到地址文本向量序列;基于地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型。本申请不仅对待训练地址文本样本的文本内容进行向量化,还对待训练地址文本样本的文本位置也进行了向量化,最后再合并使用,能够更好的表现待训练地址文本样本向量化后的地址文本位置关系,从而能够得到预测能力更准确的目标地址文本识别模型,提高对地址预测的准确率。
技术领域
本申请涉及自然语言处理和及机器学习技术领域,具体涉及一种地址文本识别模型的训练方法、地址的预测方法及装置。
背景技术
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在电商高速发展的今天,几乎所有快递公司都引入了智能填写下单服务。智能填写地址识别系统目的是简化客户下单流程,提高客户下单效率。因此该系统对地址文本的信息识别和提取额准确率就成了至关重要的指标。传统智能下单系统对地址文本进行识别是基于规则匹配做的,这样的方法准确率低。也即现有技术中地址文本识别的准确率过低。
发明内容
本申请旨在提供一种地址文本识别模型的训练方法、地址的预测方法及装置,旨在解决现有技术对地址预测的准确率较低的问题。
一方面,本申请提供一种地址文本识别模型的训练方法,所述训练方法包括:
获取待训练地址文本样本;
对所述待训练地址文本样本进行向量化,得到文本内容向量序列和文本位置向量序列;
对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列;
基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型。
其中,所述文本内容向量序列包括词向量序列,所述对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列,包括:
对所述待训练地址文本样本进行词维度分词,得到多个地址文本分词;
对所述多个地址文本分词向量化,得到所述词向量序列;
基于所述多个地址文本分词在所述待训练地址文本样本中的位置对所述多个地址文本分词进行编码,得到所述文本位置向量序列。
其中,所述文本内容向量序列还包括字向量序列,所述对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列,还包括:
对所述待训练地址文本样本进行字维度分词,得到多个地址文本字符;
对所述多个地址文本字符向量化,得到所述字向量序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丰图科技(深圳)有限公司,未经丰图科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010811886.3/2.html,转载请声明来源钻瓜专利网。