[发明专利]甲片自动标注解析方法及装置、电子设备及存储介质在审
申请号: | 202110655958.4 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113505784A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 刘知远;孙茂松;邱可玥;韩旭;李永威;肖光烜;吕天 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/40;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 蒋娟 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 标注 解析 方法 装置 电子设备 存储 介质 | ||
本发明提供一种甲片自动标注解析方法及装置,该方法包括:获取原始甲片图像并去除所述原始甲片图像的背景噪声,得到预处理后的甲片图像;将所述甲片图像输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;其中,所述目标检测结果包括甲骨文区域及对应的类别,所述目标检测模型是基于伪造甲片样本训练得到的。本发明通过引入甲片图像预处理减少背景噪声对甲骨文目标检测的干扰,并使用伪造甲片训练目标检测模型,从而保证目标检测模型在真实情景中的应用效果,实现复杂甲片中甲骨文的准确识别。
技术领域
本发明涉及甲片标注解析技术领域,尤其涉及一种甲片自动标注解析方法及装置、电子设备及存储介质。
背景技术
由于在实际情境中,甲骨文基本位于出土的甲片上,且往往一个甲片上有许多甲骨文,因此单字识别的模型很难直接用于现实应用中。更具有实际应用意义的模型应当具有直接从复杂的整片甲骨中找到甲骨单字并且将其识别的能力,也就是甲片自动标注解析的能力。
发明内容
本发明提供一种甲片自动标注解析方法及装置,用以解决现有技术中单字识别模型难以用于包含许多甲骨文的复杂甲片的缺陷,实现在复杂甲片中自动框选甲骨文字并将其识别。
本发明提供一种甲片自动标注解析方法,包括:
获取原始甲片图像并去除所述原始甲片图像的背景噪声,得到预处理后的甲片图像;
将所述甲片图像输入至目标检测模型,得到所述目标检测模型输出的目标检测结果;
其中,所述目标检测结果包括甲骨文区域及对应的类别,所述目标检测模型是基于伪造甲片样本训练得到的。
根据本发明提供的一种甲片自动标注解析方法,生成所述伪造甲片样本包括:
基于预设的甲骨文单字数据集以及甲骨文在甲片上的排布方式,将所述甲骨文单字数据集中的甲骨单字模拟所述排布方式进行随机放置,并加入随机噪声生成伪造甲片数据集;
对所述伪造甲片数据集进行采样得到伪造甲片样本。
根据本发明提供的一种甲片自动标注解析方法,所述去除所述原始甲片图像的背景噪声包括:
基于图像二值化和图像涂色去除所述原始甲片图像的背景噪声。
根据本发明提供的一种甲片自动标注解析方法,所述将所述甲片图像输入至目标检测模型,得到所述目标检测模型输出的目标检测结果,包括:
将所述甲片图像进行候选区域选择得到候选区域集合;
基于卷积神经网络对每个所述候选区域进行特征提取得到对应的特征向量表示;
将所述特征向量表示输入至分类器,得到对应的类别以及置信度;
依次计算每两个所述候选区域之间的重叠程度;
若所述重叠程度大于预设的阈值,则将置信度低的特征向量表示对应的候选区域从候选区域集合中删除,得到候选区域子集;
调整所述候选区域子集中的候选区域的边框,得到修正后的甲骨文区域;
将所述甲骨文区域及对应的类别作为目标检测结果。
根据本发明提供的一种甲片自动标注解析方法,对所述伪造甲片数据集进行采样,得到伪造甲片样本,包括:
将所述伪造甲片数据集的采样区间进行划分得到多个采样子区间;
从所述采样子区间中选择对应的待选正样本或待选负样本作为伪造甲片样本。
根据本发明提供的一种甲片自动标注解析方法,所述基于卷积神经网络对每个所述候选区域进行特征提取得到对应的特征向量表示,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110655958.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种操作方法和执行设备
- 下一篇:一种甲骨文数据库的构建方法和装置