[发明专利]样本标注方法及计算机存储介质有效

专利信息
申请号: 201810134893.7 申请日: 2018-02-09
公开(公告)号: CN110135425B 公开(公告)日: 2021-02-26
发明(设计)人: 兴百桥 申请(专利权)人: 北京世纪好未来教育科技有限公司
主分类号: G06K9/34 分类号: G06K9/34
代理公司: 北京合智同创知识产权代理有限公司 11545 代理人: 李杰
地址: 100086 北京市海淀区中*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 样本 标注 方法 计算机 存储 介质
【说明书】:

发明提供了一种样本标注方法及计算机存储介质。该样本标注方法包括对待标注的样本图像进行连通域分析,得到当前字符为根号符号时,根据所述连通域分析的分析结果确定标注所述根号符号位置的字符框;获取所述根号符号中的每个像素点与所述字符框的左边界以及上边界的距离之和;从所有像素点对应的多个距离之和中,确定最小的距离之和;将所述最小的距离之和的像素点对应的横坐标设置为所述字符框的右边界的横坐标,并根据所述右边界的横坐标更新标注所述根号符号位置的字符框。该样本标注方法的标注效果更好。

技术领域

本发明涉及计算机技术领域,尤其涉及一种样本标注方法及计算机存储介质。

背景技术

随着人工智能和机器学习技术的发展,越来越多的领域开始采用机器学习方法训练设备,使之具有一定的智能性。随之而来的是对训练样本的需求增长。例如,在训练光学字符检测模型和识别模型时都需要大量的标注样本,标注样本是指在真实样本上通过人工标注出用于指示字符位置的字符框和字符类别。现有的在获取真实样本时利用纯手工标注的方法,存在着效率低的问题,而且因为人工标注会有一定的精度损失,例如存在人工失误造成字符位置标注不准确,字符内容标注错误的情况,这使得标注后的样本在进行机器学习方法训练设备时效果不能发挥最好。

现有的字符检测模型可以实现自动化字符检测,并可以通过字符框的方式对字符进行标识,但也存在着一些问题,例如,在包含公式的样本图像中,可能存在一些公式符号,例如分式线、根号、加号和减号等,这些公式符号通过现有的字符检测模型可能被误检测为其他字形类似的字符,导致字符检测和标注的位置不准确,或者根本不能被检测,而不会对其进行标注,使得字符检测的准确度下降,需要人工进行大量修正,增加了人工的劳动强度。在通过人工修正时,又存在着前述的人工标注精度低的问题。总之,现有的通过字符标注方法存在着效率低、精度不好的问题。

发明内容

有鉴于此,本发明实施例提供一种样本标注方法及计算机存储介质,以解决现有技术中真实样本标注准确率低的问题。

本发明实施例提供一种样本标注方法,其包括:对待标注的样本图像进行连通域分析,得到当前字符为根号符号时,根据连通域分析的分析结果确定标注根号符号位置的字符框;获取根号符号中的每个像素点与字符框的左边界以及上边界的距离之和;从所有像素点对应的多个距离之和中,确定最小的距离之和;将最小的距离之和的像素点对应的横坐标设置为字符框的右边界的横坐标,并根据右边界的横坐标更新标注根号符号位置的字符框。

根据本发明的第二方面,提供一种计算机存储介质,该计算机存储介质存储有:用于对待标注的样本图像进行连通域分析,得到当前字符为根号符号时,根据连通域分析的分析结果确定标注根号符号位置的字符框的指令;用于获取根号符号中的每个像素点与字符框的左边界以及上边界的距离之和的指令;用于从所有像素点对应的多个距离之和中,确定最小的距离之和的指令;用于将最小的距离之和的像素点对应的横坐标设置为字符框的右边界的横坐标,并根据右边界的横坐标更新标注根号符号位置的字符框的指令。

本发明实施例提供的一种样本标注方案,该样本标注方案对待标注的样本图像进行连通域分析,并从待标注的样本图像中确定出是根号符号的字符,对根号符号中的每个像素点计算其与根号符号对应的字符框的上边界和左边界的距离和,根据每个像素点的距离和确定距离和最小的像素点的横坐标,作为新的字符框的右边界的横坐标,从而实现对根号符号对应的字符框的调节,避免字符框所围的区域内包括根号符号之外的字符,提升样本标注的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种样本标注方法的流程示意图;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810134893.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top