[发明专利]一种多层三值主元与双向长短期记忆融合的文本识别方法有效
申请号: | 202110672336.2 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113408525B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 纪禄平;李真;陈香 | 申请(专利权)人: | 成都崇瑚信息技术有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V10/82;G06V10/77;G06N3/04;G06N3/08 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 李英 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多层 三值主元 双向 短期 记忆 融合 文本 识别 方法 | ||
本发明涉及文本识别技术领域,涉及一种多层三值主元与双向长短期记忆融合的文本识别方法,其包括以下步骤:一、输入场景图像;二、经过基于多层融合的TPCANet模型获得图像特征输出;三、将图像特征输入BLSTM网络预测置信度;四、输入全连接进行预测最可能的文本框坐标;五、根据文本框坐标在原图像上进行目标文本框的切割;六、将切割得到的文本框输入基于多层融合的TPCANet模型提取包含更多文本信息及空间信息的特征输出;七、继续输入BLSTM网络预测特征序列对应字符的概率;八、将带概率的序列输入CTC网络预测最大概率的序列,实现转录,从而输出所需要的文本序列。本发明具有较佳的识别能力。
技术领域
本发明涉及文本识别技术领域,具体地说,涉及一种多层三值主元与双向长短期记忆融合的文本识别方法。
背景技术
文字的出现对于人类文明的发展和传承有着重要的现实意义和历史意义,古今中外思想的交流、文化的发展、历史的记载无不依赖于文字的出现。文字既是信息的载体,也是人类认知世界的重要手段,它不仅能够独立传递信息,也能够和其他视觉元素相互补充传递更高层次的语言含义。随着经济社会的蓬勃发展,自然场景中的文本元素随处可见,例如公交车站牌、道路指示牌、商城广告牌等等。这些文本指示能够透露给我们大量的环境信息等待我们的探索和利用。
在将深度学习应用到文本检测与识别之前,已经对文档检测有了相应的解决方案——OCR(光学字符识别)。在过去,硬件设备落后、对自然场景文本检测与识别的客观需求也较低,OCR作为当时最先进的文档识别技术为人类提供了便捷的服务。虽然OCR局限于文档识别、识别率较低以及存在需要大量人工辅助等问题,但该技术经过长时间的发展,目前也任在生活中的方方面面服务着人们的学习和生活。
近年来,计算机软硬件设备飞速发展,智能家居、智能驾驶、机器人引导、拍照翻译系统等智能应用纷纷落地,这些应用依靠对自然环境信息的理解能够为人类提供非常便捷的服务,因为自然场景中出现的文本多数是带有说明性、引导性、指示性的信息,能够为智能控件提供更直观、更丰富、更准确的环境信息。因此获得自然场景中的文本信息的需求已经变得更加迫切。
自然场景图像中的文本识别,其难度远大于扫描文档图像中的文本识别。不同于扫描文本的规则与背景一致,自然场景中的文本展现形式非常丰富。场景文字存在多种语言的文本混合,甚至文本字符也可以有不同的大小、字体样式、颜色、亮度、对比度等特殊呈现。文本行也可能出现横向、竖向、弯曲、旋转、扭曲等不规则样式。特别地,自然场景图像的背景还复杂多样,比如文本可以出现在平面、曲面或折皱面上,文本区域附近也可能出现复杂的干扰纹理、或者非文本区域有近似文字的纹理,文本区域还可能会产生变形,比如透视、仿射变换、残缺、模糊等。
不同于以往,随着人工智能的兴起、深度神经网络学习理论的发展、计算硬件的快速迭代,自然场景的文本检测与识别迎来了属于它的浪潮。深度学习在图像识别领域的成就为自然场景的文本检测与识别问题的解决奠定了坚实的基础,基于计算机视觉与自然语言处理等学科交叉的自然场景文本检测与识别课题成为了识别自然场景文本问题的重要研究热点。因为深度学习本身就具有强大的拟合能力,相对于传统的OCR技术,深度神经网络的学习更加具有解决在复杂的自然场景下进行文本检测与识别这类问题的前途。
发明内容
本发明的内容是提供一种多层三值主元与双向长短期记忆融合的文本识别方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种多层三值主元与双向长短期记忆融合的文本识别方法,其包括以下步骤:
一、向场景文本模型输入一张包含文本信息的场景图像;
二、经过基于多层融合的多层三值主元网TPCANet模型获得图像特征输出;
三、将图像特征输入长短期记忆网BLSTM网络预测每个像素点上对应的k个锚点框的置信度;
四、再输入全连接进行预测最可能的文本框坐标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都崇瑚信息技术有限公司,未经成都崇瑚信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110672336.2/2.html,转载请声明来源钻瓜专利网。