[发明专利]一种手写体维吾尔字符识别方法有效

专利信息
申请号: 201010204177.5 申请日: 2010-06-18
公开(公告)号: CN101866417A 公开(公告)日: 2010-10-20
发明(设计)人: 卢朝阳;李静;许亚美;阿地力·依米提;谭福秀;王炜;曹琎 申请(专利权)人: 西安电子科技大学
主分类号: G06K9/00 分类号: G06K9/00;G06K9/66
代理公司: 陕西电子工业专利中心 61205 代理人: 张问芬
地址: 710071*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 手写体 维吾尔 字符 识别 方法
【说明书】:

技术领域

发明属于模式识别中的文字模式识别领域,具体地说属于手写体字符识别领域,用于对移动终端输入的手写体维吾尔字符进行识别。

背景技术

维吾尔文字属于阿尔泰语系突厥语族西匈语支,是我国重要少数民族维吾尔族的语言。现行维吾尔文由32个字母组成,根据在词中位置的不同,每个字母有前连式、双连式、后连式、单立式等2-8种书写形式,演化成124个字符。维吾尔文的词由一个或多个字符组成,其中除124类字母变体字符外,还包括两个复合字符、一个后连前缀符和一个中连前缀符,总共128个字符。词中的字符是沿着一条水平线相连的,这条水平线被称为基线。字符采用自右向左、从上至下的书写方式,沿着基线书写的部分称为主体部分,用来辨别字符的主要形态,除基线以外的符号、点或滴等称为附加部分,是区分相似字符的依据。

对维吾尔文的处理和识别有益于促进民族地区信息和科技的发展,而目前对维吾尔文识别的研究仍处于探索阶段。维吾尔文由维吾尔单词构成,维吾尔单词由多个字符组成,这些字符沿基线相连书写,以整个单词为识别对象,符合维吾尔文的书写习惯,实用性好。针对印刷体维吾尔文,清华大学丁晓青、新疆大学哈里木拉提等研究了印刷体维吾尔单词的切分和印刷体维吾尔字符的识别。其中对印刷体维吾尔字符,利用预分类信息将整个字符集划分为若干子集,对输入字符提取方向线素特征,由修正二次鉴别函数完成分类,得出识别结果。针对手写体维吾尔文,新疆大学袁保社等研究了手写体维吾尔41类字符识别方法,提出笔画数、主体笔画结构特征、附件结构特征等21个特征为特征集,与样本库中特征数据进行异或运算,取运算后1的个数最少的样本为识别样本并给出候选样本。但维吾尔41类字符只包含维吾尔32个字母的单立式和简单单立式形式,不能应用在基于字符切分的维吾尔单词识别上。

目前,针对手写体维吾尔128类字符的识别方法还未见相关文献报道。如何将维吾尔文字的特定规则和现有字符识别算法相结合,研究手写体维吾尔128类字符的识别方法是个亟待解决的问题。

发明内容

本发明目的在于提供一种手写体维吾尔128类字符识别方法,该方法针对维吾尔单词中切分出的128类字符进行识别,是识别整个维吾尔单词的基础。利用该方法结合手写体维吾尔单词切分方法最终可以让用户在智能手机等移动平台的书写框内无约束、自然、流畅地以任意角度书写维吾尔文词,并进行鲁棒识别。

本发明是一种结构和统计相结合的方法,针对维吾尔字母的128类变体字符,首先建立维吾尔字符部件库和部件字典,利用维文先验知识和部件训练特征将维吾尔字符分割成若干部件;然后对单个部件提取时分方向特征,最后以加权距离融合函数综合各部件特征,用以识别整个字符。本发明的识别方法包括以下三个部分:

(1)建立128类维吾尔字符部件字典和手写体维吾尔字符部件库;

(2)手写体维吾尔字符训练过程:采集定量手写体维吾尔字符样本,利用维吾尔字符部件字典和相关训练算法进行训练,训练特征存入手写体维吾尔字符训练特征库;

(3)手写体维吾尔字符识别过程:对手写体维吾尔字符,利用维吾尔字符部件字典、手写体维吾尔字符部件训练特征库和相关识别算法进行识别。

其中训练过程包括以下步骤:

(a)在移动终端平台上采集手写体维吾尔字符的联机信息,该信息是一系列按时序采样的笔画坐标轨迹,采集多套字符样本,作为训练样本集;

(b)对每个训练样本的字符坐标轨迹进行预处理,包括倾斜校正、归一化、重采样、平滑和断笔连接;

(c)参照维吾尔字符部件字典,对预处理后的字符以训练时部件分割算法分割出四个部件:主体部件、第一附加部件、第二附加部件和点连笔部件;

(d)针对字符中分割出的各个部件提取时分方向特征:主体部件提取4×9维时分方向特征,附加部件和点连笔部件提取4×4维时分方向特征;

(e)对每一部件的各样本时分方向特征求平均,得出这一部件的训练特征,存入手写体维吾尔字符部件训练特征库。

识别过程包括以下步骤:

(a)在移动终端平台上采集手写体维吾尔字符的联机信息;

(b)对采集到的字符坐标轨迹进行预处理,包括倾斜校正、归一化、重采样、平滑和断笔连接;

(c)参照手写体维吾尔字符部件训练特征库,对预处理后的字符以识别时部件分割算法分割成四个部件:主体部件、第一附加部件、第二附加部件和点部件;

(d)对字符中分割出的各个部件提取特征:主体部件提取4×9维时分方向特征,附加部件提取4×4维时分方向特征,点部件提取点数目、位置和两点结构特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010204177.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top