[发明专利]基于图像异构计算的实时视频流文字定位方法在审

申请号：	201510185939.4	申请日：	2015-04-17
公开（公告）号：	CN104794469A	公开（公告）日：	2015-07-22
发明（设计）人：	施文华;干子轩;蒋磊	申请（专利权）人：	同济大学
主分类号：	G06K9/20	分类号：	G06K9/20
代理公司：	上海智信专利代理有限公司 31002	代理人：	吴林松
地址：	200092 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于图像计算实时视频文字定位方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器视觉技术领域，涉及嵌入式异构计算、数字图像处理和实时用户交互技术。

背景技术

在人们的日常生活中，总是遇到类似如下的场景：在翻阅繁复的资料时，想要快速的找到其中包含特定关键字的相关资料，抑或，当一个人来到了一个完全陌生的场景，要在这样一个陌生的环境里，找到其所急切需要的信息，运用传统方法是极其困难且效果不佳的。

比如光学字符识别(OCR)技术，将视频或者静态图中的文字位图提取出，并转化为可以被计算机识别的文本串流，这样以后，通过比对用户需要查找的文本来筛选出特定的信息。然而该方法存在以下弊端：

(1)OCR的计算量非常之大，现在以及今后很长一段时间内，凭借尖端硬件设备，都无法做到可以实用的实时性；

(2)OCR技术的准确性只能满足于帮助录入文本，对于查找特定的文本，不稳定的准确率和误识别率使得效果不佳；

(3)OCR对于图像的扭曲和倾斜的情况，几乎可以说是无能为力，无法识别大部分文本内容。

近些年，又有一种新的查找文本的技术流派产生了，这种流派基于21世纪初诞生的以尺度不变特征转换(SIFT)算法为代表图像匹配技术；这种技术简而言之，主要由以下几个步骤组成：通过将在不同视觉尺度上的得到的图像特征向量进行优选和组合，用来描述以图像局部的特征，在这个基础上，通过将两幅图像进行交叉匹配，用特征向量匹配数目的多少描述两幅图像的局部相似度。然而这种方法亦不适用于空间文字定位的场景，原因有以下几点：

(1)图像匹配技术需要的计算量远大于OCR技术，因而更不可能做到实时性；

(2)现有的图像匹配技术，对于色彩各异形状不同的实物物体的鉴别效果不俗，然而对于黑白两值，由细曲线构成的文字，鉴别能力不足，往往不能产生足够多有效的描述信息来表征文字的特性；

(3)要应用图像匹配技术用于文字定位，必须建立数以百计的图像数据库，这是非常不切实际的，但使运用即时演算技术，其时间、空间复杂度也不亚于匹配技术本身。

可见，在当前生产生活中，都会普通使用视频采集并进行数字图像处理，在这些海量的视频串流中提取出有价值的信息则成了当今的一个研究热点。传统的OCR(光学字符识别)技术不仅需要消耗巨大的计算性能无法做到实时性；并且，对于更普遍的类似于在交通监控视频串流中定位找到某一特定车牌号码的文字定位的应用场景也有很大难度。

发明内容

本发明的目的是提供一种基于图像异构计算的实时视频流文字定位方法，可以实时计算并且在视频串流中标定出所需要查找文字。

为实现上述目的，本发明采用如下技术方案：

构建x86异构计算平台，包括中央处理器单元和用于并行计算的通用计算显卡的确定，选购符合要求的Webcam摄像头。算法与所用平台相关性微乎其微，本发明以主流x86平台为例。

安装操作系统和相关必要软件、驱动程序。

建立标准字库，将字符集中的所有字符降采样至12×12点阵，存储至数据库。点阵尺寸越大，算法效果越好，但消耗计算资源越多，采用12×12的点阵已经能够满足要求。

抽象数字图像处理的计算步骤，构建并行计算API接口。

从摄像头捕获一帧图像，转换成灰度图。

按照固定大小分块，根据分块对比度进行直方图均衡和黑白二值化。

将原图进行模糊，按固定宽度将原图分割成竖条状，得到每个竖条的每一行的起始和终止位置。

将得到的位置进行进行拟合计算其斜率，本发明采用最小二乘法。

将斜率和历史计算值加权，对此时的图像进行倾斜校正。