[发明专利]一种基于指向手势的单行文字识别方法有效
申请号: | 201910281744.8 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110059600B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 严江江;林龙庆;于红雷;孙俊伟 | 申请(专利权)人: | 杭州视氪科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 黄欢娣;邱启旺 |
地址: | 310007 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指向 手势 单行 文字 识别 方法 | ||
本发明公开了一种基于指向手势的单行文字识别方法,通过检测用户指向手势,并获取指向位置,分割出上方文字图像,并实现倾斜矫正,弯曲文字行分割,获得完整一行文字区域图像,再对单行文字区域图像进行应用神经网络的文字识别。本发明能获取手指指向位置上方的单行文字,减少了识别耗时,且能实现弯曲的文字行分割。
技术领域
本发明涉及计算机视觉领域,尤其涉及一种基于指向手势的单行文字识别方法。
背景技术
随着计算机视觉领域的发展,视觉辅助眼镜产业集聚了更多的科技成果。加在视觉辅助眼镜上的摄像头能够获取更多的图像信息。通过文本图像信息,可以提供给视觉障碍的用户文本内容的阅读。但是通过辅助设备自然场景中对手持文本进行拍照,图像存在文本变形、页面旋转、光照不均、多尺度等情况。现有技术方案中,传统的光学字符识别算法主要面向排版整齐的高质量文本图像,或者是应用神经网络算法进行自然场景图像文本识别。针对自然场景图像中多个文字区域只阅读单行文字的情况,现有技术方案存在以下问题。
自然场景图像中文字区域多,无法确定用户想要阅读的地方。自然场景图像中单行文字区域存在变形弯曲,传统的光学字符识别算法会存在文字排序错误。直接应用神经网络算法处理自然场景图像耗时大,单个字符识别后还存在重新排序问题。
发明内容
为解决上述技术问题,本发明提供了一种基于指向手势的单行文字识别方法。
本发明采用如下技术方案:一种基于指向手势的单行文字识别方法,包括以下步骤:
(1)获取带有指向手势的自然场景文字图像;
(2)识别出指向手势,获取指向位置;
(3)文本倾斜矫正;
(4)弯曲单行文本分割;
(5)识别单行文字。
进一步地,所述步骤1为:通过摄像头,获取用户使用食指指向文本的文本彩色图像。
进一步地,所述步骤2通过训练指向手势分类器,使用分类器识别图像中指向手势,获得手势图像。
进一步地,所述步骤2中:对手势图像进行基于颜色空间的手势分割,获得手势分割二值图像,对手势分割二值图像进行距离变换,获得距离变换图中重心点,检测手势分割二值图像的凸包点,筛选出离重心点最远的凸包点,作为指向位置坐标。
进一步地,所述步骤3具体为:文本彩色图像灰度变换,获得文本灰度图像,从文本灰度图像截取指向位置坐标上方矩形区域R1内图像,采用最大稳定极值区域(maximallystable extremal regions,MSER)算法,分割出文字,并使用K*K结构元素膨胀,其中K5,获取指向位置处最近连通域。对连通域直线拟合,计算出直线角度angle,和连通域高度均值height。以指向位置为中心,以angle为角度旋转文本灰度图像,获得文本倾斜矫正图像。
进一步地,所述步骤4具体为:对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像,采用MSER算法,分割出文字并使用M*N横向膨胀,其中MN5,得到R2矩形内二值图像。在R2矩形二值图像中,保留指向位置处最近的连通域,获得文字行定位二值图像。对文字行定位二值图像做垂直投影,划分成L个子图像,对每个子图像水平投影划分成H个子图像,其中L=文字行定位图像的宽/height,H=文字行定位图像的高/(2*height)。在L*H个子图中,剔除全部为背景的子图。遍历L组中子图像,以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图,质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height。连接后组成Z组子图序列。筛选Z组序列中与指向位置坐标最近的子图序列P。文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州视氪科技有限公司,未经杭州视氪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910281744.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:驾驶疲劳预警方法
- 下一篇:一种多特征提取与融合的智能故障诊断方法