[发明专利]一种建模方法、识别方法、装置、存储介质及设备在审
申请号: | 201711459765.1 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108364036A | 公开(公告)日: | 2018-08-03 |
发明(设计)人: | 武晨 | 申请(专利权)人: | 顺丰科技有限公司 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/62;G06N3/04 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 梁风霞 |
地址: | 518061 广东省深圳市南山区学府路(以南)*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 建模 存储介质 连接层 递归神经网络 卷积神经网络 路径扫描 模型实现 人力资本 手写文本 分类器 准确率 打字 样本 优化 | ||
本发明公开了一种建模方法、识别方法、装置、存储介质及设备,所述建模方法包括:将样本进行路径扫描、时间递归神经网络处理、卷积神经网络处理,生成全连接层数据;所述全连接层数据经过CTC分类器、优化得到所述模型。所述识别用法用所述建模方法所建的模型实现,所述存储介质及设备分别用于实现所述方法。本发明技术能代替人工打字录单的过程,缩减了大量的人力资本,大幅度提高了录单的准确率,技术方案不仅可以识别运单上的手写文本。
技术领域
本发明涉及手写汉字识别技术领域,尤其涉及一种建模方法、识别方法、装置、存储介质及设备。
背景技术
当前人工智能领域已经可以实现对单一手写汉字的较准确的识别,所以通过手写的地址文本切分成单个汉字并依次进行识别本可以实现完整地址的识别,但是,目前“切割汉字的技术”还没有发展到可以保证正确率的程度,进而导致识别结果正确率很低。
另外,快递在被运送路上之前,每一件快递都要经历录单的过程,目的是将运单上的二维码与寄件人手写的地址信息的对应关系保存在电脑里,进而之后的收发结点仅仅通过扫描二维码来获取该快件的目标地址。而且,目前我们的录单过程都是依靠人工手动敲打键盘来把运单上的手写地址录入电脑系统里,这样不仅消耗大量的人力成本,还无法保证录单的正确率。一旦录入的地址错误,对应的快递就会毫无悬念的被寄往错误的地点。
终上所述,现有技术存在的问题是:“切割汉字的技术”还没有发展到可以保证正确率的程度,进而导致识别结果正确率很低,并且在快递行业,人工打字录单的过程会消耗大量的人力成本,而且枯燥重复的工作,会让人工识别地址经常出错,并且由于手写地址是一串没有间隔的汉字,同时汉字往往是左右或者上下结构的,所以将地址切分成一个一个的汉字是事倍功半的过程。
发明内容
为了解决上述现有技术中的不足,本发明的目的在于提供一种建模方法、识别方法、装置、存储介质及设备。它提高了手写运单的识别精确度,提高了识别效率。
为了实现上述目的,本发明所采用的技术方案为:
一种建立手写运单文本识别模型的方法,包括:
将样本进行路径扫描、时间递归神经网络处理、卷积神经网络处理,生成全连接层数据;
所述全连接层数据经过CTC分类器、优化得到所述模型。
所述路径扫描为四方向路径扫描。
所述时间递归神经网络处理、卷积神经网络处理在执行过程中,包括:
将样本集平均分为若干个样本子集;
所述样本子集中的每个样本,重复路径扫描、LSTM处理以及卷积求和处理若干次,生成全连接层数据。
所述优化在执行过程中,包括:
将所述全连接层数据经过CTC分类器得到的数据与样本的真实数据进行比较并迭代进行全网络参数的优化,再利用训练集、测试集和验证集,采用梯度下降法优化,并基于GPU加速器迭代进行模型训练。
一种建立手写运单文本识别模型的装置,包括:
数据生成单元,配置用于将样本进行路径扫描、时间递归神经网络处理、卷积神经网络处理,生成全连接层数据;
优化单元,配置用于所述全连接层数据经过CTC分类器、优化得到所述模型。
一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行所述的建立手写运单文本识别模型的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于顺丰科技有限公司,未经顺丰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711459765.1/2.html,转载请声明来源钻瓜专利网。