[发明专利]一种多题型识别方法、装置和计算机设备在审
申请号: | 202110839266.5 | 申请日: | 2021-07-23 |
公开(公告)号: | CN113591845A | 公开(公告)日: | 2021-11-02 |
发明(设计)人: | 袁景伟;黄宇飞;胡亚龙;田宝亮;吴哲楠;李霄鹏;杨森;黄秋慧;蔡红;王岩;郭彦宗;安晟 | 申请(专利权)人: | 作业帮教育科技(北京)有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 北京清诚知识产权代理有限公司 11691 | 代理人: | 喻颖 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 题型 识别 方法 装置 计算机 设备 | ||
本发明属于教育领域,提供一种多题型识别方法、装置和计算机设备,该方法包括:识别所述图像中的题目区域,使各题目区域包含一种题型的题目;对所述题目区域进行结构特征提取,得到题目类型特征;使用训练好的基于神经网络的识别模型,对所述各题目区域分别进行题目题型的识别,得到各题目区域的题型。本发明通过识别待处理图像中的题目区域,能够更精确地确定出待处理图像中的各题目区域;对各题目区域进行结构特征提取,能够精确得到各题型所对应的题目类型特征,以为如题型识别和题型分类等后续处理提供更精确的数据;能够更精确地确定与各题目区域的题型,能够提高题型识别的精确度,能够提高题型分类的准确度,能够整体优化题型识别方法。
技术领域
本发明属于计算机视觉相关技术领域,特别适用于教育领域,更具体地涉及一种多题型识别方法、装置和计算机设备。
背景技术
随着拍搜与批改技术的不断演进与发展,现有的策略与方法已经无法满足特殊题型的要求,需要针对不同题型进行定制化处理,这就需要对图像的题型分类提出更高的要求。
现在技术中,主流的方法是通过识别出图片中的文字,使用NLP(naturallanguage processing,即自然语言处理)技术,完成对不同题型的分类。该技术方法主要通过文本内容对题型进行识别与分类,该技术方法对文本内容识别的正确率依赖比较高,而且容易受到文字干扰,比如当文本中出现“选择”、“判断”对应的字符时,题型被误判为选择题、判断题的概率非常大;同时该技术只能进行单个题型分类,无法进行多题型同时分类,尤其是当用户上传的图片没有拍完整个题型时,或者重要信息被遮挡时,也存在较大程度的误判,由此导致题型识别准确率低以及题型分类的准确率低。
因此,有必要提供一种多题型识别方法,以解决上述问题。
发明内容
(一)要解决的技术问题
本发明旨在解决现有方法中因受文本内容识别影响造成的题型识别准确率低、无法精确识别图像中的题目区域并无法对该题目区域进行多题型识别,以及题型识别和分类的准确率低等的技术问题。
(二)技术方案
为解决上述技术问题,本发明的一方面提出一种多题型识别方法,所述方法包括如下步骤:识别所述图像中的题目区域,使各题目区域包含一种题型的题目;对所述题目区域进行结构特征提取,得到题目类型特征;使用训练好的基于神经网络的识别模型,对所述各题目区域分别进行题型的识别,得到各题目区域的题型,所述识别模型基于题目区域的深层结构特征进行题型识别,该深层结构特征对浅层结构特征图进行二次结构特征提取获得的。
根据本发明的优选实施方式,所述使用训练好的基于神经网络的识别模型,对所述各题目区域分别进行题型的识别包括:通过第一神经网络模型对所述各题目区域进行一次结构特征提取,得到第一特征图,该第一特征图包含各题目的浅层结构特征;通过第二神经网络模型对所述第一特征图进行二次结构特征提取,得到第二特征图,该第二特征图包含各题目的深层结构特征。
根据本发明的优选实施方式,所述深层结构特征包括以下的至少一种:文字与文字空位的空间结构分布信息、文字与图形的空间结构分布信息、不同行文字的关系、题目题干的位置信息和内容、以及文字之间的空位与文字的分布信息。
根据本发明的优选实施方式,所述文字与文字空位的空间结构分布信息包括以下的至少一种:文字空位与文字行或文字之间的上下或左右结构分布信息;文字空位夹设于两列文字行之间的夹设结构分布信息;多行文字行的同列分布信息;两列文字行之间间隔设置的结构分布信息;选项文字行与题干文字行的上下结构分布信息;选项文字行之间的左右结构分布信息和上下结构分布信息;文字空位成行或成列的分布信息;题干文字行之间的上下结构分布信息;文字段与题干文字行的上下结构分布信息;题干文字行与选项文字行的上下结构分布信息;文字段与选项文字行的上下结构分布信息;选项文字行之间的上下结构分布信息;和/或所述文字与图形的空间结构分布信息包括:文字行与图表之间的上下结构分布信息和左右结构分布信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于作业帮教育科技(北京)有限公司,未经作业帮教育科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110839266.5/2.html,转载请声明来源钻瓜专利网。