[发明专利]手写输入的识别方法、装置、电子设备及介质在审
申请号: | 202010942894.1 | 申请日: | 2020-09-09 |
公开(公告)号: | CN114237484A | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 辛晓哲;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F3/04883 | 分类号: | G06F3/04883;G06F3/023;G06V30/244;G06N3/04;G06N3/08 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 房德权 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 手写输入 识别 方法 装置 电子设备 介质 | ||
1.一种手写输入的识别方法,其特征在于,包括:
实时获取用户手写输入的笔划数据;
使用偏旁部首模型对实时获取的所述笔划数据进行识别,得到识别结果;
若所述识别结果表征所述笔划数据对应目标偏旁部首,则根据预先建立的部首映射字表中获取与所述目标偏旁部首对应的关联字集;以及根据深度神经网络模型对所述笔划数据进行补全预测,得到所述笔划数据对应的补全字集;根据所述关联字集和所述补全字集,确定出待展示的候选字,并将所述候选字进行展示。
2.如权利要求1所述的方法,其特征在于,所述部首映射字表的创建步骤,包括:
根据历史输入数据,获取高频字表和非高频字表,其中,所述书写高频字表中的每个字的频率不小于第一预设频率,所述非高频字表中的每个字的频率不小于所述第一预设频率;
根据所述高频字表、所述非高频字表和偏旁部首,创建所述部首映射字表。
3.如权利要求2所述的方法,其特征在于,在所述使用偏旁部首模型对实时获取的所述笔划数据进行识别,得到识别结果之后,所述方法还包括:
若所述识别结果表征所述笔划数据对应非偏旁部首,则根据深度神经网络模型对所述笔划数据进行补全预测,得到所述笔划数据对应的补全字集;根据所述补全字集,确定待展示的候选字,并将所述候选字进行展示。
4.如权利要求3所述的方法,其特征在于,所述深度神经网络模型是基于DropStroke技术创建的。
5.如权利要求4所述的方法,其特征在于,所述深度神经网络模型的训练样本集包括完整字集和非完整字集,其中,针对所述完整字集中每个字,组成该字的笔划为完整笔划,以及,针对所述非完整字集中每个字,组成该字的笔划与该字的完整笔划相比缺少至少一个笔划。
6.如权利要求1所述的方法,其特征在于,所述根据预先建立的部首映射字表中获取与所述目标偏旁部首对应的关联字集,包括:
从所述部首映射字表中,获取偏旁部首为所述目标偏旁部首的映射字集;
根据第二预设频率,从所述映射字集中获取所述关联字集,其中,所述关联字集的频率大于所述第二预设频率。
7.一种手写输入的识别装置,其特征在于,包括:
笔划数据获取模块,用于实时获取用户手写输入的笔划数据;
笔划识别模块,用于使用偏旁部首模型对实时获取的所述笔划数据进行识别,得到识别结果;
展示模块,若所述识别结果表征所述笔划数据对应目标偏旁部首,用于根据预先建立的部首映射字表中获取与所述目标偏旁部首对应的关联字集;以及根据深度神经网络模型对所述笔划数据进行补全预测,得到所述笔划数据对应的补全字集;根据所述关联字集和所述补全字集,确定出待展示的候选字,并将所述候选字进行展示。
8.如权利要求7所述的装置,其特征在于,还包括:
部首映射表创建模块,用于根据历史输入数据,获取高频字表和非高频字表,其中,所述书写高频字表中的每个字的频率不小于第一预设频率,所述非高频字表中的每个字的频率不小于所述第一预设频率;根据所述高频字表、所述非高频字表和偏旁部首,创建所述部首映射字表。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含如权利要求1-6任一权项所述的方法步骤。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的手写输入的识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010942894.1/1.html,转载请声明来源钻瓜专利网。