[发明专利]一种基于指向手势的单行文字识别方法有效
申请号: | 201910281744.8 | 申请日: | 2019-04-09 |
公开(公告)号: | CN110059600B | 公开(公告)日: | 2021-07-06 |
发明(设计)人: | 严江江;林龙庆;于红雷;孙俊伟 | 申请(专利权)人: | 杭州视氪科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/34 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 黄欢娣;邱启旺 |
地址: | 310007 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 指向 手势 单行 文字 识别 方法 | ||
1.一种基于指向手势的单行文字识别方法,其特征在于,包括以下步骤:
(1)获取带有指向手势的自然场景文字图像;
(2)识别出指向手势,获取指向位置;
(3)文本倾斜矫正;具体为:文本彩色图像灰度变换,获得文本灰度图像,从文本灰度图像截取指向位置坐标上方矩形区域R1内图像,采用最大稳定极值区域MSER算法,分割出文字,并使用K*K结构元素膨胀,其中K5,获取指向位置处最近连通域;对连通域直线拟合,计算出直线角度angle,和连通域高度均值height,以指向位置为中心,以angle为角度旋转文本灰度图像,获得文本倾斜矫正图像;
(4)弯曲单行文本分割;具体为:对文本倾斜矫正图像中截取指向位置处上方R2矩形区域内图像,采用MSER算法,分割出文字并使用M*N横向膨胀,其中MN5,得到R2矩形内二值图像;在R2矩形二值图像中,保留指向位置处最近的连通域,获得文字行定位二值图像;对文字行定位二值图像做垂直投影,划分成L个子图像,对每个子图像水平投影划分成H个子图像,其中L = 文字行定位图像的宽/height,H=文字行定位图像的高/(2*height);在L*H个子图中,剔除全部为背景的子图;遍历L组中子图像,以第一组单个子图开始向后连接下一组中满足质心距离条件且质心距离最小的单个子图,质心距离条件是前一个子图质心与后一个子图质心的距离小于1.5*height;连接后组成Z组子图序列;筛选Z组序列中与指向位置坐标最近的子图序列P;文本灰度图像中抠出子图序列P的连通区域作为弯曲文字行图像;
(5)识别单行文字。
2.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(1)为:通过摄像头,获取用户使用食指指向文本的文本彩色图像。
3.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(2)通过训练指向手势分类器,使用分类器识别图像中指向手势,获得手势图像。
4.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(2)中:对手势图像进行基于颜色空间的手势分割,获得手势分割二值图像,对手势分割二值图像进行距离变换,获得距离变换图中重心点,检测手势分割二值图像的凸包点,筛选出离重心点最远的凸包点,作为指向位置坐标。
5.根据权利要求1所述的文字识别方法,其特征在于,所述步骤(5)具体为:构建文字识别模型,对输入的文本行图像进行识别,得到识别后的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州视氪科技有限公司,未经杭州视氪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910281744.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:驾驶疲劳预警方法
- 下一篇:一种多特征提取与融合的智能故障诊断方法