[发明专利]基于HMM和决策树的阿拉伯语光学字母识别方法有效
申请号: | 201510420294.8 | 申请日: | 2015-07-17 |
公开(公告)号: | CN105023028B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 尤新革;罗特飞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06K9/68 | 分类号: | G06K9/68 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 朱仁玲 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 阿拉伯语 隐马尔可夫模型 读音符号 输入图像 迭代训练 特征提取 字母识别 边界框 输入决策 文本主体 坐标比较 决策树 似然比 去除 文本 书写 检测 预测 | ||
1.一种基于HMM和决策树的阿拉伯语光学字母识别方法,其特征在于,包括以下步骤:
(1)接收包含阿拉伯语文本的输入图像;
(2)通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号;
(3)将每个输入图像划分为四层,并对所述四层执行特征提取;
(4)将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔可夫模型;
(5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然比准则为止;
(6)将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别,并生成最终识别结果;
其中,对所述四层执行特征提取的过程包括以下子步骤:
提取第一特征,其等于包含黑色像素的层的数量;
提取第二特征,其等于第一层和第四层和的均值;
提取第三特征,其等于第二层和第三层和的均值;
提取第四、第五和第六特征,其等于所有四层垂直投影的和;
提取第七、第八和第九特征,其等于第三层垂直投影。
2.根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,确定围绕文本主体区域的区域的边界框,并在所述边界框处于所述文本主体的边界框内时将所述围绕文本主体区域的区域标记为读音符号。
3.根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,如果围绕文本主体区域的区域的横坐标与所述文本主体区域的横坐标相交,则将所述围绕文本主体区域的区域标记为读音符号。
4.根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,将每个输入图像划分为四层,每次从所述输入图像的顶部一列开始垂直扫描所述输入图像,并将每列所包括的每个连通黑色像素段与各个层进行匹配。
5.根据权利要求4所述的阿拉伯语光学字母识别方法,其特征在于,如果所述列仅包含一个连通黑色像素段,则将该连通黑色像素段与第四层进行匹配。
6.根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,对所述四层执行特征提取具体为,以3个像素宽的窗口同时在所述四层上移动,且所述窗口一次移动一个像素。
7.根据权利要求1所述的阿拉伯语光学字母识别方法,其特征在于,
对每个阿拉伯语字母形状使用单独的HMM模型;
字母之间延长线的建模是使用HMM模型。
8.一种基于权利要求1至7任意一项所述的阿拉伯语光学字母识别方法中使用阿拉伯语字母的连通性规则建立HMM的编码网络的方法,其特征在于,包括以下步骤:
定义网络中的三种非发射态:一种在网络的起始,一种在网络的末尾,一种在网络的中间;
将起始非发射态连接到孤立位置,然后将该孤立位置连接到末尾非发射态;
将起始非发射态连接到起始位置,然后将起始位置连接到中间非发射态;
将中间非发射态连接到末尾位置,然后将末尾位置连接得到末尾非发射态;
将中间非发射态与中间位置并联,然后将中间位置连接到中间非发射态,以形成中间非发射态与每个中间位置之间的环路;
将中间非发射态连接到延长模型,然后将延长模型连接到中间非发射态,以形成中间非发射态与延长模型之间的环路;
将末尾非发射态连接到起始非发射态。
9.根据权利要求8所述的编码网络的方法,其特征在于,
使解码网络输出最佳字母序列;
使用决策树将HMM的输出与读音符号特征组合,以输出最终识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510420294.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通过二维码进行画作信息管理的方法
- 下一篇:基于主动视觉的车标定位方法