[发明专利]手写汉字的识别方法、装置、设备和存储介质在审
申请号: | 201811494875.6 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109670559A | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 张志远;王庆乐 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06K9/68 | 分类号: | G06K9/68;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手写汉字 数据增强 训练集 存储介质 准确率 初始数据集 构建 汉字 图片 | ||
本发明实施例公开了一种手写汉字的识别方法、装置、设备和存储介质,其中该方法包括:获取待识别的手写汉字图片;利用预先构建的手写汉字识别模型,得到手写汉字图片的汉字,手写汉字识别模型的训练集为通过数据增强模型进行数据增强之后的训练集。本发明实施例通过数据增强模型对初始数据集进行数据增强得到数据增强之后的训练集,采用该数据增强之后的训练集训练好的手写汉字识别模型的准确率得到极大的提高,进而提高了手写汉字识别的准确率。
技术领域
本发明实施例涉及模式识别和人工智能技术领域,尤其涉及一种手写汉字的识别方法、装置、设备和存储介质。
背景技术
自从上个世纪80年代以来,手写汉字识别(Handwritten Chinese CharacterRecognition,HCCR)由于在拍照文档、支票、表单表格、证件、邮政信封、票据和手稿文书等光学字符识别(Optical Character Recognition,OCR)图像识别系统以及手写汉字输入设备中的广泛应用前景,一直是模式识别的一个重要研究领域,得到了学术界的广泛研究和关注。
手写汉字识别由于数据采集方式不同可以划分为脱机手写汉字识别和联机手写汉字识别两大类。联机手写汉字识别所处理的手写汉字是书写者通过物理设备(如数字笔、数字手写板或者触摸屏)在线书写获取的文字信号,书写的轨迹通过定时采样即时输入到计算机中。而脱机手写汉字识别所处理的手写汉字是通过扫描仪或摄像头等图像捕捉设备采集到的手写汉字二维图片.由于识别的对象不同,使得这两类手写识别技术所采用的方法和策略也不尽相同.前者的识别对象是一系列的按时间先后排列的采样点信息,而后者则是丢失了书写笔顺信息的二维像素信息,由于没有笔顺信息,加之由于拍照扫描设备在不同光照、分辨率、书写纸张等条件下,数字化会带来一定的噪声干扰,一般来说,脱机手写汉字识别比联机手写汉字识别更加困难。
最近几年来随着深度学习的兴起及不断发展,相关的方法也被逐步应用到手写体文字识别领域,并取得了不少突破性发展。传统的手写汉字识别一般包括预处理、特征提取、特征降维、分类器设计等环节,但手写汉字识别的准确率还不能满足人们的需求,有待进一步的提升。
发明内容
本发明实施例提供了一种手写汉字的识别方法、装置、设备和存储介质,可以提高手写汉字识别的准确率。
第一方面,本发明实施例提供了一种手写汉字的识别方法,包括:
获取待识别的手写汉字图片;
利用预先构建的手写汉字识别模型,得到所述手写汉字图片的汉字,所述手写汉字识别模型的训练集为通过数据增强模型进行数据增强之后的训练集。
第二方面,本发明实施例还提供了一种手写汉字的识别装置,该识别装置包括:
图片获取模块,用于获取待识别的手写汉字图片;
识别模块,用于利用预先构建的手写汉字识别模型,得到所述手写汉字图片的汉字,所述手写汉字识别模型的训练集为通过数据增强模型进行数据增强之后的训练集。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的手写汉字的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的手写汉字的识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811494875.6/2.html,转载请声明来源钻瓜专利网。