[发明专利]一种手写识别方法、装置、电子设备及介质在审
申请号: | 202011640989.4 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112766080A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 辛晓哲;秦波;赵志勇;王英俊;王杰;苏雪峰;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 手写 识别 方法 装置 电子设备 介质 | ||
本发明实施例公开了一种手写识别方法,实时获取手写原始轨迹数据;对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据;将所述压缩手写轨迹数据输入到压缩后的手写识别模型中进行识别,得到所述手写原始轨迹数据对应的文字识别结果,其中,所述手写识别模型是利用训练数据集中每个训练数据的手写轨迹数据训练得到的,压缩后的所述手写识别模型是对所述手写识别模型进行模型压缩得到的。本发明实施例提供的手写识别方法,能够解决现有技术中非正确切分导致手写识别准确率低的问题,能够有效提高致手写识别准确率。
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种手写识别方法、装置、电子设备及介质。
背景技术
随着互联网技术的飞速发展,为了方便用户输入,通常会提供多种输入方式例如包括语音输入、手写输入和拼音输入等方式,当用户使用手写输入时,会通过手写识别模型对手写输入的数据进行识别,提高识别效率,使得用户的体验更好。
但是,现有技术中在手写数据进行识别的手写识别框架通常是基于切分、组合再识别的三阶段架构,在使用手写识别框架进行识别时,尤其是在针对连笔输入例如连笔草书和连笔行书等连笔手写进行识别时,由于连笔手写中间没有断笔,切分模块针对连笔手写进行切分时存在非正确切分的概率非常高,进而会导致识别的准确率较低。
发明内容
本发明实施例提供了一种手写识别方法、装置、电子设备及介质,能够解决现有技术中非正确切分导致手写识别准确率低的问题,能够有效提高致手写识别准确率。
本发明实施例第一方面提供了一种手写识别方法,包括:
实时获取手写原始轨迹数据;
对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据;
将所述压缩手写轨迹数据输入到压缩后的手写识别模型中进行识别,得到所述手写原始轨迹数据对应的文字识别结果,其中,所述手写识别模型是利用训练数据集中每个训练数据的手写轨迹数据训练得到的,压缩后的所述手写识别模型是对所述手写识别模型进行模型压缩得到的。
可选的,所述实时获取手写原始轨迹数据,包括:
对实时获取的所述手写输入数据进行数据预处理,其中,所述数据预处理包括重采样;
根据预处理后的所述手写输入数据,实时获取所述手写原始轨迹数据。
可选的,所述对所述手写原始轨迹数据进行压缩,得到压缩手写轨迹数据,包括:
对所述手写原始轨迹数据进行维度压缩,得到所述压缩手写轨迹数据,其中,所述压缩手写轨迹数据中每个维度的数据与所述手写识别模型的模型识别结果的相关性不低于设定阈值。
可选的,所述手写识别模型为端到端模型。
可选的,所述手写识别模型的训练步骤,包括:
获取训练数据集及与所述训练数据集对应的预选训练模型;
获取所述训练数据集中每个训练数据的手写轨迹数据;
利用每个训练数据的手写轨迹数据,对所述预选训练模型进行训练,得到已训练的所述预选训练模型作为所述手写识别模型。
可选的,所述获取训练数据集,包括:
获取历史手写轨迹数据集,其中,所述历史手写轨迹数据集包括水平手写的轨迹数据、竖直手写的轨迹数据、叠写的轨迹数据和旋转手写的轨迹数据中的一种或多种;
对所述历史手写轨迹数据集中的手写数据进行数据增强,将数据增强后的所述历史手写轨迹数据集作为训练数据集。
可选的,所述利用每个训练数据的手写轨迹数据,对所述预选训练模型进行训练,得到所述手写识别模型,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011640989.4/2.html,转载请声明来源钻瓜专利网。