[发明专利]满文部件切分中删除多余候选切分行的方法有效
申请号: | 201810371506.1 | 申请日: | 2018-04-24 |
公开(公告)号: | CN108549896B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 郑蕊蕊;李敏;贺建军;许爽;吴宝春;付玉 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 刘斌 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 满文 部件 切分 删除 多余 候选 方法 | ||
满文部件切分中删除多余候选切分行的方法,属于文字切分领域,为了解决提高满文切分精度的问题,要点是(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;效果是将候选切分行中,对于认定的多余候选切分行进而删除,能够提高候选切分行的准确性,从而提高切分的准确性。
技术领域
本发明属于文字切分领域,涉及一种满文部件切分中删除多余候选切分行的方法。
背景技术
满文是我国满族、锡伯族等少数民族使用的语言文字,在清代作为法定文字被推广和使用,形成了大量珍贵的满文文献。由于目前满语文已濒临消失,满族语言文化遗产亟待抢救和保护得到国家和社会各界的认同和重视。研究满文的光学字符识别技术对保护和传承清代文化遗产显得尤为重要。满文是一种音素文字,共有38个字母,其中6个元音字母,22个辅音字母,此外还有10个专门用于拼写汉语借词的特定字母。满文书写采用字序从上到下,行款从左到右的规则。对于满文识别往往需要先将满文先切分基本单元(如字母等),再予以识别,因而,提高满文识别的精度可以从提高其切分精度着手。
发明内容
为了解决提高满文切分精度的问题,本发明提出如下技术方案:一种满文部件切分中删除多余候选切分行的方法,候选切分行组成的序列为Can_seg,删除序列Can_seg中的多余候选切分行的步骤:
(1)如果序列Can_seg中只有1条候选切分行,且为第1行,则删除该行;否则转步骤(2);
(2)查找连续候选切分行组成的子段conti_subseg,若子段的起始行为第1行,或者子段的结束行为第H行,则删除该子段的所有行;否则转步骤(3),H是满文单词图像的高度;
(3)在连续候选切分子段conti_subseg中,按从小到大顺序,用中位数替代该子段的所有行,当具有偶数个候选行时取中间两个值的平均值再向上取整;
(4)输出删除了多余候选切分行的切分行序列Can_seg_new。
有益效果:本发明将候选切分行中,对于认定的多余候选切分行进而删除,能够提高候选切分行的准确性,从而提高切分的准确性。
附图说明
图1满文部件集构建流程图;
图2满文部件分割流程图;
图3传统方法满文单词图像中轴线提取错误实例图;
图4采用区域限定的最大游程比例法确定满文中轴线宽度的图,其中:(1)最大游程比例法错误实例图、(2)本发明限定的搜索范围图、(3)本发明方法结果图;
图5本发明方法中轴线提取效果图;
图6满文部件切分流程图;
图7满文部件切分结果图,其中:(1)弱分割现象图、(2)弱分割区域经过细切分图、(3)过分割现象图、(4)过分割区域经过合并图、(5)部分分割结果图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810371506.1/2.html,转载请声明来源钻瓜专利网。