[发明专利]一种场景文字识别方法、装置、存储介质及终端在审

申请号：	201911230219.X	申请日：	2019-12-04
公开（公告）号：	CN111027613A	公开（公告）日：	2020-04-17
发明（设计）人：	关玉烁;边凯归;王韬;张高瀚	申请（专利权）人：	浙江省北大信息技术高等研究院;杭州未名信科科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/32;G06N3/04
代理公司：	北京辰权知识产权代理有限公司 11619	代理人：	刘广达
地址：	311200 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种场景文字识别方法装置存储介质终端
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种场景文字识别方法、装置、存储介质及终端，所述方法包括：获取目标场景文字图片；将所述目标场景文字图片输入预设主干网络模型中生成特征图；将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；将所述字符特征序列输入预设编解码模型中生成文字。因此，采用本申请实施例，可以提高场景文字识别的准确率。

技术领域

本发明涉及计算机技术领域，特别涉及一种场景文字识别方法、装置、存储介质及终端。

背景技术

场景文字识别技术利用计算机自动识别自然场景下的文字，该技术可以广泛应用于证件识别、即时翻译、机器人导航、自动驾驶等领域。

现有的场景文字识别方法大多利用基于卷积神经网络(convolutional neuralnetwork,CNN)和递归神经网络(recurrent neural network,RNN)相结合的技术，首先利用CNN从图片中提取特征，然后利用RNN进行特征解码，翻译得到图片中的场景文字。由于实际场景文字存在形状不规则特点，因此利用这种识别方法识别后的结果和实际结果存在误差，从而降低了场景文字的识别准确率。

发明内容

本申请实施例提供了一种场景文字识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种场景文字识别方法，所述方法包括：

获取目标场景文字图片；

将所述目标场景文字图片输入预设主干网络模型中生成特征图；

将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列；

将所述字符特征序列输入预设编解码模型中生成文字。

可选的，所述将所述目标场景文字图片输入预设字符锚定池化模型中，获取所述特征图对应的字符特征序列，包括：

当接收到目标场景文字图片时，获取预设字符锚定池化模型中字符锚定模块和锚定池模块；

将所述目标场景文字图片输入所述字符锚定模块中生成字符锚定线；

基于所述锚定池模块和所述字符锚定线获取所述特征图对应的字符特征序列。

可选的，所述获取目标场景文字图片之前，还包括：