[发明专利]图像文本行检测方法及装置、存储介质和电子设备在审
申请号: | 201811435156.7 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109583367A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 林丽;陈益如;徐彬彬;王嘉磊;温翔;丛林 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 检测 待检测图像 文本行 存储介质 电子设备 图像 置信 文本 计算机技术领域 后处理 检测结果 模型获取 准确检测 概率 中文 | ||
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及图像文本行检测方法及装置,存储介质和电子设备。所述方法包括:获取待检测图像;利用已训练的识别模型获取所述待检测图像的文本概率置信图;对所述文本概率置信图进行后处理以获取所述待检测图像的文本行检测结果。本公开能够实现对图像中文本行的准确检测;并且由于检测过程中仅使用一个模型,从而有效的提高检测速度;并且能够缩短检测流程,提高检测精度。
技术领域
本发明的实施方式涉及计算机技术领域,更具体地,本发明的实施方式涉及图像文本行检测方法及装置,存储介质和电子设备。
背景技术
本部分旨在为权利要求中陈述的本发明的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
自然场景图像,是指由各种拍摄设备(例如,照相机、具有拍摄功能的手机、网络摄像头等),在没有特定限制的条件下,直接对生活中真实存在的场景拍摄的图像。由于自然场景图像中文本的字体、颜色、格式等差异以及杂乱的背景等因素,以及在自然场景图像中后期人为添加文本等情形,使得在自然场景图像中检测文本是一项较复杂的工作。
目前,在已经出现的文本检测方法,通常需要利用多个不同的识别模型,或者重复多次使用同一模型来筛选图像中的字符区域或文本块,实现对图像中文本的识别。
发明内容
但是,在一些技术中,一方面,图像检测流程复杂,步骤较多,需要预先人工设定较多的规则,影响检测速度;另一方面,较多的步骤级联容易造成误差累计,影响检测精度;另一方面,大多数的方法仅能对图像中的水平文本进行检测,无法对多方向的文本有效识别。
为此,非常需要一种改进的图像文本行检测方法及装置、存储介质和电子设备,以优化图像文本行检测流程,提升检测精度及速度。
在本上下文中,本发明的实施方式期望提供一种图像文本行检测方法和装置、存储介质和电子设备。
根据本公开的一个方面,提供一种图像文本行检测方法,包括:
获取待检测图像;
利用已训练的识别模型获取所述待检测图像的文本概率置信图;
对所述文本概率置信图进行后处理以获取所述待检测图像的文本行检测结果。
在本公开的一种示例性实施例中,所述方法还包括:
预先训练所述识别模型,包括:
获取训练图像集;
根据所述训练图像集对全卷积神经网络FCN模型进行训练以获取所述识别模型;其中,所述FCN模型具有特征金字塔网络FPN结构。
在本公开的一种示例性实施例中,所述根据所述训练图像集对FCN模型进行训练包括:
利用所述FCN模型对所述训练图像集分别执行分类任务和回归任务,并分别利用分类损失函数和回归损失函数对所述FCN模型进行优化。
在本公开的一种示例性实施例中,利用FCN模型对所述训练图像集执行分类任务,利用分类损失函数对FCN模型进行优化包括:
利用所述FCN模型对训练图像执行分类任务以获取对应的文本概率置信图;
利用分类损失函数计算所述概率置信图的误差损失,并根据所述误差损失优化所述FCN模型。
在本公开的一种示例性实施例中,利用FCN模型对所述训练图像集执行回归任务,利用回归损失函数对FCN模型进行优化包括:
利用所述FCN模型对训练图像执行回归任务以获取对应的包括多个文本行检测框的文本框检测图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811435156.7/2.html,转载请声明来源钻瓜专利网。