[发明专利]字符的识别方法、装置及计算机存储介质在审
申请号: | 202110074732.5 | 申请日: | 2021-01-19 |
公开(公告)号: | CN112766261A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 江帆 | 申请(专利权)人: | 南京汇川图像视觉技术有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 付海萍 |
地址: | 210000 江苏省南京市江宁区麒麟*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 识别 方法 装置 计算机 存储 介质 | ||
本发明公开了一种字符的识别方法,所述字符的识别方法包括以下步骤:在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。本发明还公开了一种字符的识别装置及计算机存储介质。本发明通过获取像素点的二维偏移量,根据二维偏移量调整卷积神经网络的采样点位置,避免采样点位置固定,卷积的感受野可更加集中在图像中的字符周围,根据调整后的采样点位置提取的图像特征更加准确,字符识别的准确度更高。
技术领域
本发明涉及字符识别技术领域,尤其涉及字符的识别方法、装置及计算机存储介质。
背景技术
随着计算机图像视觉技术的发展,越来越多的场景采用视觉方案辅助或替代人工。字符识别技术已应用在众多行业或场景中,比如工业喷码、银行卡、身份证等。由于不同场景下的字符形态各异,字符背景更是千差万别,例如包装上的生产日期、芯片的编号、瓶体上的激光喷码等。基于传统特征提取方法难以胜任日益复杂的识别任务,基于深度学习的方法越来越受到业内的关注。
然而,在基于深度学习的字符识别方法中,卷积神经网络的采样方式较为固定,导致提取得来的特征信息包含了太多除字符外的背景信息,特征信息的提取不太准确,字符识别的准确度较低。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种字符的识别方法、装置及计算机存储介质,旨在根据像素点的二维偏移量调整卷积神经网络的采样点位置,提高字符识别的准确度。
为实现上述目的,本发明提供一种字符的识别方法,所述字符的识别方法包括以下步骤:
在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量;
根据所述二维偏移量调整目标神经网络模型在所述待识别图像上的采样点坐标;
根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息。
可选地,所述根据调整后的采样点坐标以及所述目标神经网络模型获取所述待识别图像中所述字符的字符信息的步骤包括:
根据调整后的采样点坐标获取所述待识别图像的特征信息;
将所述特征信息输入所述目标神经网络模型,以获取所述待识别图像中所述字符的字符信息。
可选地,所述根据调整后的采样点坐标获取所述待识别图像的特征信息的步骤包括:
采用注意力机制获取所述待识别图像中各个像素点的注意力权重,其中,所述注意力权重包括空间注意力权重和/或通道注意力权重;
根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域;
获取所述目标图像区域的所述特征信息。
可选地,所述根据所述注意力权重以及调整后的采样点坐标确定所述待识别图像中的目标图像区域的步骤包括:
根据调整后的采样点坐标确定所述待识别图像中各个像素点的得分;
根据各个像素点的得分以及像素点的注意力权重获取像素点的加权得分;
根据所述加权得分确定所述待识别图像中的目标像素点,其中,所述目标图像区域包括所述目标像素点。
可选地,所述在获取到包含字符的待识别图像后,获取所述待识别图像中各个像素点对应的二维偏移量的步骤之前,还包括:
获取多个第一预设图像;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇川图像视觉技术有限公司,未经南京汇川图像视觉技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110074732.5/2.html,转载请声明来源钻瓜专利网。