[发明专利]文本识别方法和相关产品有效
申请号: | 201910986192.0 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110738262B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 蔡晓聪;侯军;伊帅 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/74;G06V10/82;G06N3/04 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 相关 产品 | ||
本申请实施例公开了一种文本识别方法和相关产品,该方法通过文本识别网络实现,其中,所述文本识别网络包括编码网络和第二解码网络,所述方法包括:通过所述编码网络对目标图像进行编码处理,得到第一特征序列;通过所述第二解码网络对所述第一特征序列进行解码处理,得到第二特征序列;基于所述第二特征序列,得到文本识别结果;其中,所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的,所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的;可以在保证文本识别速度的情况下,提高文本识别精度。
技术领域
本申请涉及文本识别领域,尤其涉及一种文本识别方法和相关产品。
背景技术
利用计算机视觉技术进行文本识别广泛应用于多个领域,在目前针对真实场景下的文本识别技术中,识别速度和识别精度无法同时满足,需要研究能够同时具有较好的识别速度以及识别精度的文本识别方法。
发明内容
本申请实施例公开了一种文本识别方法和相关产品。
第一方面,本申请实施例提供了一种文本识别方法,通过文本识别网络实现,其中,所述文本识别网络包括编码网络和第二解码网络,该方法可包括:通过所述编码网络对目标图像进行编码处理,得到第一特征序列;通过所述第二解码网络对所述第一特征序列进行解码处理,得到第二特征序列;基于所述第二特征序列,得到文本识别结果;其中,所述编码网络是通过对包括所述编码网络和不同于所述第二解码网络的第一解码网络的第一识别网络进行训练得到的,所述第二解码网络是通过对包括所述编码网络和所述第二解码网络的第二识别网络进行训练得到的。
本申请实施例的执行主体为文本识别装置。该文本识别装置可以是手机、平板电脑等终端设备,也可以是服务器。使用包括编码网络和第一解码网络的第一识别网络进行文本识别训练得到的编码网络的编码性能优于使用包括编码网络和第二解码网络的第二识别网络进行文本识别训练得到的编码网络的编码性能。包括编码网络和第二解码网络的第二识别网络的文本识别速度优于包括编码网络和第一解码网络的第一识别网络的文本识别速度。
本申请实施例中,利用第一解码网络监督训练得到的编码网络,利用包括该编码网络和第二解码网络进行文本识别,可以在保证文本的识别速度的情况下,提高文本识别精度。
在一个可选的实现方式中,所述编码网络的参数在训练所述第二识别网络的过程中保持不变。在该实现方式中,编码网络的参数在训练第二识别网络的过程中保持不变,可以更快地训练得到性能更优的第二解码网络。
在一个可选的实现方式中,所述文本识别网络还包括矫正网络,在所述通过所述编码网络对目标图像进行编码处理,得到第一特征序列之前,还包括:通过所述矫正网络对原始图像进行矫正处理,得到所述目标图像,其中,所述矫正网络是通过对包括所述矫正网络、所述编码网络和所述第一解码网络的所述第一识别网络进行训练得到的。在该实现方式中,利用矫正网络对原始图像进行矫正处理,可以提高文本识别的精度。
在一个可选的实现方式中,所述第一解码网络为注意力机制网络,和/或,所述第二解码网络为联结时序分类CTC解码网络。在该实现方式中,利用包括矫正网络、注意力机制网络以及编码网络的第一识别网络进行文本识别训练,可以得到一个矫正效果较好的矫正网络,进而得到文本识别网络。
在一个可选的实现方式中,所述第二解码网络包括图卷积神经网络GCN和长短期记忆网络LSTM,其中,所述通过所述第二解码网络对所述第一特征序列进行解码处理,得到第二特征序列,包括:通过所述GCN对所述第一特征序列中包括的多个特征切片进行融合处理,得到融合特征序列;通过所述长短期记忆网络对所述融合特征序列进行解码,得到所述第二特征序列。在该实现方式中,通过长短期记忆网络对融合特征序列进行解码,得到第二特征序列;该第二特征序列可以包括各特征切片之间的上下文信息,能够提高文本识别的精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910986192.0/2.html,转载请声明来源钻瓜专利网。