[发明专利]多语言文本检测识别系统有效
申请号: | 201910232853.0 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109948615B | 公开(公告)日: | 2021-01-26 |
发明(设计)人: | 张勇东;周宇;谢洪涛;李岩 | 申请(专利权)人: | 中国科学技术大学;北京中科研究院 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06F40/58;G06N3/04 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 文本 检测 识别 系统 | ||
本发明公开了一种多语言文本检测识别系统,包括:文本检测器,用于在输入图像中生成一系列的文本候选框;归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度;脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。该系统可以同时检测并识别出场景文本图像中的多种语言的文本。
技术领域
本发明涉及人工智能领域,尤其涉及多语言文本检测识别系统。
背景技术
现有的场景文本识别系统主要是针对剪裁后的文本,而不能同时对文本图像进行检测和识别。少数的能同时检测和识别文本的方法却只是针对英文文本,而在现实生活中经常会遇到在同一场景下处理多种语言文本的情况。因此迫切需要一个端到端的多语言场景文本识别系统,这将会给图像检索、机器翻译,自动驾驶等带来很大便利。
发明内容
本发明的目的是提供一种多语言文本检测识别系统,可以同时检测并识别出场景文本图像中的多种语言的文本。
本发明的目的是通过以下技术方案实现的:
一种多语言文本检测识别系统,包括:
文本检测器,用于在输入图像中生成一系列的文本候选框;
归一化单元,用于在每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度K;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。
由上述本发明提供的技术方案可以看出,该系统基于卷积神经网络,并且能同时检测和识别多种语言的文本,相比对传统的文本检测、多语言识别方案均具有较高的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种多语言文本检测识别系统的示意图;
图2为本发明实施例提供的文本检测器的结构示意图;
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种多语言文本检测识别系统,如图1所述,包括:
文本检测器,用于在输入图像中生成一系列密集地的文本候选框;
将输入图像调整为指定尺寸,并对于每一像素点输出M个带有方向的文本候选框;
归一化单元,用于将每一文本候选框在保存原有宽高比的基础上将所有文本候选框调整为统一高度;
脚本识别网络,用于对归一化后的文本候选框中文本的类型进行识别,确定相应文本为符号或者某个具体的语言类型;
基于注意力机制的多语言文本识别网络,用于对归一化后的文本候选框中文本内容进行识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学;北京中科研究院,未经中国科学技术大学;北京中科研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910232853.0/2.html,转载请声明来源钻瓜专利网。