[发明专利]一种手写识别方法、装置、电子设备及介质在审
申请号: | 202011640989.4 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112766080A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 辛晓哲;秦波;赵志勇;王英俊;王杰;苏雪峰;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手写 识别 方法 装置 电子设备 介质 | ||
1.一种手写识别方法,其特征在于,包括:
实时获取手写原始轨迹数据;
对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据;
将所述压缩手写轨迹数据输入到压缩后的手写识别模型中进行识别,得到所述手写原始轨迹数据对应的文字识别结果,其中,所述手写识别模型是利用训练数据集中每个训练数据的手写轨迹数据训练得到的,压缩后的所述手写识别模型是对所述手写识别模型进行模型压缩得到的。
2.如权利要求1所述的方法,其特征在于,所述实时获取手写原始轨迹数据,包括:
对实时获取的手写输入数据进行数据预处理,其中,所述数据预处理包括重采样;
根据预处理后的所述手写输入数据,实时获取所述手写原始轨迹数据。
3.如权利要求2所述的方法,其特征在于,所述对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据,包括:
对所述手写原始轨迹数据进行维度压缩,得到所述压缩手写轨迹数据,其中,所述压缩手写轨迹数据中每个维度的数据与所述手写识别模型的模型识别结果的相关性不低于设定阈值。
4.如权利要求1所述的方法,其特征在于,所述手写识别模型为端到端模型。
5.如权利要求4所述的方法,其特征在于,所述手写识别模型的训练步骤,包括:
获取训练数据集及与所述训练数据集对应的预选训练模型;
获取所述训练数据集中每个训练数据的手写轨迹数据;
利用每个训练数据的手写轨迹数据,对所述预选训练模型进行训练,得到已训练的所述预选训练模型作为所述手写识别模型。
6.如权利要求5所述的方法,其特征在于,所述获取训练数据集,包括:
获取历史手写轨迹数据集,其中,所述历史手写轨迹数据集包括水平手写的轨迹数据、竖直手写的轨迹数据、叠写的轨迹数据和旋转手写的轨迹数据中的一种或多种;
对所述历史手写轨迹数据集中的手写数据进行数据增强,将数据增强后的所述历史手写轨迹数据集作为训练数据集。
7.如权利要求6所述的方法,其特征在于,所述利用每个训练数据的手写轨迹数据,对所述预选训练模型进行训练,得到所述手写识别模型,包括:
获取每个训练数据中的困难样本和简单样本;
采用先训练困难样本后训练简单样本的方式,对所述预选模型进行训练;
在对所述预选模型进行训练过程中,对所述预选训练模型进行微调,得到已训练的所述预选训练模型作为所述手写识别模型。
8.一种手写识别装置,其特征在于,包括:
手写轨迹获取模块,用于实时获取手写原始轨迹数据;
压缩轨迹获取模块,用于对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据;
识别模块,用于将所述压缩手写轨迹数据输入到压缩后的手写识别模型中进行识别,得到所述手写原始轨迹数据对应的文字识别结果,其中,所述手写识别模型是利用训练数据集中每个训练数据的手写轨迹数据训练得到的,压缩后的所述手写识别模型是对所述手写识别模型进行模型压缩得到的。
9.一种用于手写识别的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如权利要求1-7任一权项所述的方法步骤。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1-7中一个或多个所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640989.4/1.html,转载请声明来源钻瓜专利网。