[发明专利]对图像中包含的文字内容进行识别方法及装置有效

申请号：	201410075157.0	申请日：	2014-03-03
公开（公告）号：	CN104899586B	公开（公告）日：	2018-10-12
发明（设计）人：	陈宇;张洪明;茹新峰	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/62
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苏培华
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标图像像素文字内容图像层图像颜色相似性处理图像输出文本同一图像文本识别文字信息颜色识别侦测申请分类分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了对图像中包含的文字内容进行识别方法及装置，其中，所述方法包括：获得待分析的目标图像；对所述目标图像中的像素进行颜色识别；根据颜色相似性对像素进行分类；将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；在各个图像层内进行文本识别；输出文本识别结果。通过本申请，降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。

技术领域

本申请涉及文本识别技术领域，特别是涉及对图像中包含的文字内容进行识别方法及装置。

背景技术

随着科技的发展，图像在信息传播方面起到极大的作用。为了更好地起到宣传等作用，越来越多的图像中被添加入文字。例如，在电子商务交易平台中，卖家用户抓住图像信息比文本信息更直观，更容易快速吸引买家的注意力，而文字信息更具体更详细的特点，把介绍商品的文字放在商品图中。从而产生了越来越多的对这类图像内文字进行自动分析的需求。自动分析的任务包括：分析图像中是否被添加文字、添加了多少的文字、文字在图像里的位置、图像中文字的内容等。这些都依赖于对图像中的文字进行准确定位。

目前绝大多数文字定位技术通常只适用于规则的文本图像。其技术实现流程一般如下：首先根据对文本图像中较为规则的颜色（文字颜色与背景色），文字栏之间规则的间隙等信息进行版面分析，如定位图像中版面样式（如单栏，或双栏版面）；然后根据对文字行间的规则间隙对文字行进行定位；最后根据同行文字内规则的文字间隙大小和对文字连通域的分析对文字逐个进行定位。

但是，在实际应用场景的图像中，存在复杂多样的图像内容，商品图像或很多自然图像中的文字，通常受到不规则的图像背景内容的影响，这些背景包含多种图像内容并通过复杂多样的颜色呈现。所以，不同于普通文本图像中的文字可以通过对较为规则的颜色信息（如白纸黑字）的分析进行精确定位，图像中的文字定位受到复杂背景内容的干扰。

现有技术中最常用的针对图像中的文字侦测技术是基于SWT（Stroke WidthTransform，笔画宽度变换）技术对图像文字进行侦测。该方法的主要思想是基于文字笔画的宽度一致的假设，即文字笔画的宽度在某一字符内保持基本一致。但是，在实际图像里，因为图像内容的复杂，很难做到对文字边缘的准确检测。同时SWT的方法对于图像中与笔画相似的景物（如树枝，条状纹理等）会产生难以避免的误检。

因此，如何提高对图像中包含的文字内容进行识别的准确度，就成为迫切需要本领域技术人员解决的技术问题。

发明内容

本申请提供了对图像中包含的文字内容进行识别方法及装置，降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。

本申请提供了如下方案：

一种对图像中包含的文字内容进行识别方法，包括：

获得待分析的目标图像；

对所述目标图像中的像素进行颜色识别；

根据颜色相似性对像素进行分类；

将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；

在各个图像层内进行文本识别；

输出文本识别结果。

一种对图像中包含的文字内容进行识别装置，包括：