[发明专利]一种文本图像的识别方法、装置及计算设备有效
申请号: | 202110515979.6 | 申请日: | 2021-05-12 |
公开(公告)号: | CN112949649B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 顾可嘉;夏华栋 |
地址: | 100872 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 图像 识别 方法 装置 计算 设备 | ||
1.一种文本图像的识别方法,其特征在于,包括:
将文本图像输入已训练的第一编码器,提取所述文本图像的划痕的第三特征;其中,预先训练所述第一编码器,包括:构建包括第一编码器、第二编码器和解码器的第二网络模型;以纯划痕图像作为所述第一编码器的输入,以纯文本图像作为所述第二编码器的输入,以带划痕的图像作为输出训练所述第二网络模型;从训练后的所述第二网络模型中提取所述第一编码器;
将所述文本图像和所述第三特征输入已训练的第一网络模型,得到所述文本图像中的文本框的内容;
其中,所述第一网络模型用于获取所述文本图像的第一特征,根据所述文本图像的第一特征,识别所述文本图像中的文本框,根据所述文本框的坐标信息,从所述文本图像的第一特征中等比例地截取与所述文本框对应的第二特征,将所述第二特征减去所述第三特征,得到与所述文本框对应的第四特征,根据所述第四特征识别所述文本框的内容。
2.如权利要求1所述的方法,其特征在于,训练所述第一网络模型,包括:
根据纯文本图像和/或带划痕的图像对所述第一网络模型进行第一次训练;所述第一网络模型在第一次训练时,用于获取纯文本图像和/或带划痕的图像的第一特征,根据纯文本图像和/或带划痕的图像的第一特征,识别纯文本图像和/或带划痕的图像中的文本框,根据文本框的坐标信息,从纯文本图像和/或带划痕的图像的第一特征中等比例地截取与文本框对应的第二特征,根据第二特征识别文本框的内容;
根据带划痕的图像对所述第一网络模型进行第二次训练;所述第一网络模型在第二次训练时,用于获取带划痕的图像的第一特征,根据带划痕的图像的第一特征,识别带划痕的图像中的文本框,根据文本框的坐标信息,从带划痕的图像的第一特征中等比例地截取与文本框对应的第二特征,将第二特征减去所述第一编码器处理同一带划痕的图像后输出的第三特征,得到与文本框对应的第四特征,根据第四特征识别文本框的内容。
3.如权利要求1所述的方法,其特征在于,根据所述第四特征识别所述文本框的内容,包括:
根据CRNN网络,将所述第四特征作卷积、池化、构建时序、解码处理,得到所述文本框的内容。
4.如权利要求1所述的方法,其特征在于,获取所述文本图像的第一特征,包括:
通过特征提取网络,获取所述文本图像的第一特征;
其中,所述特征提取网络包括:VGG16、或VGG19、或VGG13、或resnet18、或resnet34、或resnet52。
5.如权利要求1所述的方法,其特征在于,根据所述文本图像的第一特征,识别所述文本图像中的文本框,包括:
根据CenterNet网络,将所述文本图像的第一特征作卷积、两次反卷积处理,得到一组用于描述所述文本图像中的文本框的多通道输出。
6.如权利要求5所述的方法,其特征在于,所述多通道输出包括6个通道输出,其中,第1个通道表示文本框中心点得分图;第2个通道和第3个通道分别表示文本框中心点的x、y方向偏移量;第4个通道和第5个通道分别表示预测的文本框的宽、高;第6个通道表示文本框的旋转角度。
7.如权利要求1所述的方法,其特征在于,构建包括第一编码器、第二编码器和解码器的第二网络模型之前,还包括:
根据纯划痕图像训练所述第一编码器;
根据纯文本图像训练所述第二编码器。
8.如权利要求1所述的方法,其特征在于,以纯划痕图像作为所述第一编码器的输入,以纯文本图像作为所述第二编码器的输入,以带划痕的图像作为输出训练所述第二网络模型,包括:
固定所述第一编码器和所述第二编码器的参数,以纯划痕图像作为所述第一编码器的输入,以纯文本图像作为所述第二编码器的输入,以带划痕的图像作为输出第一次训练所述第二网络模型;
不固定所述第一编码器和所述第二编码器的参数,以纯划痕图像作为所述第一编码器的输入,以纯文本图像作为所述第二编码器的输入,以带划痕的图像作为输出第二次训练所述第二网络模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110515979.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可信计算程序调用方法、装置、电子设备及存储介质
- 下一篇:一种纺织倒毛机
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序