[发明专利]一种基于自定义标签的目标口算的定位识别方法在审
申请号: | 202011607604.4 | 申请日: | 2020-12-30 |
公开(公告)号: | CN112651353A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 田博帆 | 申请(专利权)人: | 南京红松信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/34;G06K9/62;G06F40/14;G06F40/205;G06N3/04;G06N3/08 |
代理公司: | 南京正联知识产权代理有限公司 32243 | 代理人: | 王素琴 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自定义 标签 目标 口算 定位 识别 方法 | ||
本发明涉及一种基于自定义标签的目标口算的定位识别方法,包括步骤:S1根据预先定义的字符标签,对口算公式进行标注;S2对标注后的原始图像进行裁剪;S3采用可变卷积神经网络进行目标公式的训练和检测,经过可变卷积神经网络处理后,得到特征图像;再训练得出独立的公式定位模型,从而获得公式坐标;S4对每个字符进行定位检测,再对检测出的多个字符候选框的结果做非极大值的抑制处理,获得每个字符框的坐标可信的类别,再获得字符坐标;S5选取坐标范围界定的参考基准,再筛选出中心点落在公式坐标范围内的字符,得到字符集合;再将字符集合进行分类,并排除干扰字符;S6根据字符坐标,结合字符标签的类别,组装公式得到完整的公式。
技术领域
本发明涉及图像识别处理技术领域,尤其涉及一种基于自定义标签的目标口算的定位识别方法。
背景技术
口算识别作为一门重要的图像识别技术,近年来得到了广泛关注。而随着人工智能的飞速发展,在自动化批阅场景中,有关口算识别的自动批阅产品层出不穷。
然而,口算拍照的实际场景较为复杂,存在诸多干扰因素,人工智能产品虽能够在一定程度上减轻繁重的人力劳作,提供有效的帮助,但它距离真正拥有“智慧”,还有很长的一段路要走。例如,在文本识别领域,当前计算机还无法做到绝对可信的识别,对二义性文本字符仍无法判断其真正含义;在目标检测领域,计算机难以做到每个目标的精确捕获,同样存在目标检测的误判现状等;尤其,口算拍照识别涉及众多图像处理技术,不仅有字符的文本识别技术,而且有字符的定位检测技术。众所周知,人工智能技术在不同的应用领域中,有着不同程度的影响,但拥有这种“智慧”的高低取决于所提供学习资源的优劣程度,它通过不间断地学习使其获得更高的“智慧”。如:文本识别技术在自动化批阅方面的表现,完全取决于印刷体和手写体样本集。
中国专利文献(申请号201811125657.5)公开了一种批改试卷中口算题的方法及装置,利用口算引擎对待搜索试卷进行处理,同时根据各个待搜索题目的题干的文字内容获得待搜索题目的特征向量,然后利用各个待搜索题目的特征向量从题库中查找与待搜索试卷相匹配的目标试卷,而对于题目类型为口算题的待搜索题目,在目标试卷内部基于题目的特征向量进行二次查找,查找的标准为最短编辑距离最小,若匹配到的目标题目的题目类型也是口算题,则确认待搜索题目为待批改口算题目,将口算引擎在待批改口算题目区域对应的计算结果作为待批改口算题目的答案,并将口算引擎在所有待批改口算题目区域以外的计算结果丢弃。该方法中需要与题库进行匹配,方法比较复杂;而口算识别涉及多个技术难点,主要包括:手写字符的多样性、手写干扰的复杂性、以及公式排列的不确定性等,它们成为人工智能口算识别研究领域的首要问题。为了能够解决口算问题带来的困扰,在此,本申请对口算的自动化批阅方法做出了进一步研究。
因此,本发明提出了一种基于自定义标签的目标口算的定位识别方法,通过该方法能够自动批改复杂场景中的口算公式,且识别正确率高,提高自动批改效率。
发明内容
本发明要解决的技术问题是,提供一种基于自定义标签的目标口算的定位识别方法,通过该方法能够自动批改复杂场景中的口算公式,且识别正确率高,提高自动批改效率。
为了解决上述技术问题,本发明采用的技术方案是:基于自定义标签的目标口算的定位识别方法,具体包括以下步骤:
S1口算标注:根据预先定义的字符标签,对口算公式进行标注,获得标注后的原始图像;
S2图像处理:对标注后的原始图像进行裁剪;
S3公式定位:采用可变卷积神经网络进行目标公式的训练和检测,经过可变卷积神经网络处理后,得到特征图像;再训练得出独立的公式定位模型,获得公式的检测结果,从而获得公式坐标;
S4字符定位:对每个字符进行定位检测,再对检测出的多个字符候选框的结果作非极大值的抑制处理,获得每个字符框的坐标可信的类别,再根据每个字符的字符框的坐标计算出字符框的中心点,从而获得字符坐标;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京红松信息技术有限公司,未经南京红松信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011607604.4/2.html,转载请声明来源钻瓜专利网。