[发明专利]一种联机手写维吾尔文单词数据增强方法有效
申请号: | 201810451828.7 | 申请日: | 2018-05-12 |
公开(公告)号: | CN108665010B | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 吾加合买提·司马义;玛依热·依布拉音;艾斯卡尔·艾木都拉 | 申请(专利权)人: | 新疆大学 |
主分类号: | G06V30/244 | 分类号: | G06V30/244 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 董芙蓉 |
地址: | 830046 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联机 手写 维吾尔文 单词 数据 增强 方法 | ||
本发明公开了一种联机手写维吾尔文单词数据增强方法,分析手写维吾尔文单词的书写特性,提出了手写轨迹随机变长的联机手写数据增强算法。然后,结合多种适合联机手写单词的数据增强算法,实现联机手写维吾尔文单词数据增强。结合多种算法的数据增强方法效果明显,可以用少量的原始样本来构造更多不同手写风格的有效伪造样本,同时保证其可读性。此数据增强方法具有较强的通用性,可以为其它文字手写数据增强研究作为直接参考。
技术领域
本发明属于手写识别技术领域,涉及一种联机手写维吾尔文单词数据增强方法,具体地说,涉及一种基于多种算法结合的联机手写维吾尔文单词数据增强方法。
背景技术
手写识别是模式识别以及机器学习领域中的热题。随着机器学习研究的进步,用机器学习算法来构造和训练手写识别模型已经成为手写识别领域的普遍方法。在机器学习研究中,训练数据量越大,训练出来的模型泛化能力往往会越强。这种情况在深度学习研究中更为明显。数据量的大小是直接影响深度模型泛化能力的重要因素。数据量的大小直接联系到数据的表示能力。收集的数据量越大能包含的样本变化越多,越接近于实际情况。在手写识别研究中,收集大量手写样本往往需要的大量的人力和财力,是一个很困难而且漫长的过程。手写数据增强用少量的原始手写数据来构造更多的伪造样本,从而增加数据量并提高数据表示能力,是减轻或弥补数据缺少问题的一种有效途径。
手写识别有两大类,联机手写识别和脱机手写识别。联机和脱机手写识别对象的数据表示和存储方式有所不同。联机手写识别在手写过程中记录下来的手写轨迹上进行分析和识别;脱机手写识别则对手写完成之后的图像信息上进行处理和识别。简单地说,联机手写识别的对象是带有时间顺序的手写轨迹点序列;脱机手写识别的对象一般是只有空间信息的图像。由于联机手写数据和脱机手写数据的表示方式不同,其对应的数据增强技术和方法也有所区别。脱机手写数据增强方法可以直接采用普遍的图像数据增强技术,比如,图像旋转,尺寸和位置变换,加噪声等。根据手写样本的特性,还可以用更有效的数据增强方法。
联机手写数据是表示真实手写过程的非常好的方法。跟脱机手写数据相比,联机手写数据包含的信息更多。联机手写样本一般带有手写轨迹中每一点按时间前后顺序和坐标,样本总笔画数、笔画分界点,笔画顺序以及每一个点所属于的笔画等信息。通过这些信息不仅能够如实观察实际手写过程的属性,而且为手写数据增强提供更好的条件。本发明根据维吾尔文联机手写单词书写特性,提出多种手写数据增强技术结合应用的方法,构造更多有效的伪造样本,减轻手写单词数据短缺的问题。
目前使用的现代维吾尔文是在阿老伯和部分波斯字母基础上适应维吾尔语特性的拼音文字。现代维吾尔文有32个基本字母类型,其中有24个辅音和8个元音。每个字母类型在单词中不同的位置用不同的字母形式,比如前连式、后连式、双连式和独立式等。手写是充满多样性和随机性的过程。每个人都有各自的手写风格,而且在不同的环境中会有变化,导致同一个字母或单词能写成的样式多种多样。下面以维吾尔文单词为例,简单分析一下手写过程的一些属性。
a)手写样本轨迹中点顺序和笔画顺序有随机性
为同一个单词收集的联机手写样本不仅在总体形状上有区别,而且在手写轨迹中每一点出现的前后顺序都不同。这种情况在各笔画的前后顺序上发生得更明显。手写轨迹中构成样本主体的笔画叫做主笔画,放在主体的上下边并起区分性作用的笔画叫做延迟笔画或次笔画。主体笔画的序列长度和形状比较大,延迟笔画则相比起来比较短小甚至只包含一个点。有时候,这种情况也不一定。某个人根据他的书写风格可能首先写长度大的主要笔画,然后去写其它较小的笔画或者用相反的顺序。在手写过程中,哪个主笔画先写或者哪个延迟笔画后写是很难预定的。
b)每个笔画有不同程度的倾斜情况
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新疆大学,未经新疆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810451828.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子笔移动轨迹的处理方法及处理装置
- 下一篇:一种便携式电力自动化装置装置