[发明专利]一种智能化印章识别方法在审
申请号: | 202110629876.2 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113554021A | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 吴乐琴;覃勋辉;刘科;申发海 | 申请(专利权)人: | 傲雄在线(重庆)科技有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆弘旭专利代理有限责任公司 50209 | 代理人: | 周韶红 |
地址: | 401329 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能化 印章 识别 方法 | ||
本发明提供一种智能化印章识别方法,包括印章区域定位过程、印章图像预处理、模型预训练过程以及印章文本生成过程;其中,模型预训练过程为多模态网络训练,包括印章图像模型训练、印章文本模型训练以及训练模型匹配程度判断。该方法通过以BERT模型的多模态模型为基础,图像端输入骨干网络编码的图像特征,文本端用uniLM生成网络模型;通过印章图像自动构建方法,生成训练数据作为补充,训练包括图像和文本匹配的预训练;测试时,通过输入编码后的印章图像,逐步输出识别的字符直到结束符号;该方法相对现有技术的图像矫正+通用OCR识别方法,没有误差累积,同时多模态语言模型对公司名中的相似字有更高的识别率及准确率。
技术领域
本发明涉及图文处理技术领域,具体涉及一种智能化印章识别方法。
背景技术
为了提高印章识别成效,预防与减少印章犯罪对社会、集体单位、个体的巨额损失,采用高科技视觉技术,从而准确、快速、高效识别印章已成为迫切需要解决的问题;如何快速、准确、高效辨别印章真伪对于个人、社会团体、单位具有重大的现实意义,也成为社会稳定发展的迫切需求。
目前,现有技术中已经存在一些利用光学字符识别技术(OCR)对印章识别的方法,但是现有的印章识别方法存在以下技术问题:一是现有的基于校正加识别的pipline方法,存在流程长、误差易累计的问题;二是现有技术中并没有为印章文本设置具有针对性的光学字符识别技术(OCR)识别器,从而导致识别效果会受到相似字体的影响(如:“在线”中“线”字易被误认为“钱”字)。
发明内容
针对以上现有技术存在的问题,本发明的目的在于提供一种智能化印章识别方法,该方法不存在误差累积、识别判断准确度高,同时,该方法对公司名称中的相似字体具有较高的识别准确率,能够有效避免相似字体对印章识别结果的影响。
本发明的目的通过以下技术方案实现:
一种智能化印章识别方法,其特征在于:
包括:印章区域定位过程、印章图像预处理、模型预训练过程以及印章文本生成过程;
所述印章区域定位过程具体为获取待识别的印章图像,自动定位印章区域的位置;
所述印章图像预处理包括两次预处理,通过对印章图像进行第一次预处理,获得清晰、准确的印章图像;然后通过对印章图像进行第二次预处理,使其满足骨干网络的输入格式;
所述模型预训练过程为多模态网络训练,包括印章图像模型训练、印章文本模型训练以及训练模型匹配程度判断;具体为:
a、印章图像模型训练:采用骨干网络对预处理后的印章图像进行图片特征的提取,然后通过全连接层对提取的图片特征维度进行重映射,再对重映射后的向量个数进行随机重采样;
b、印章文本模型训练:
b1、mask predict训练:随机选取印章图像的印章文本20%~30%作为网络预测对象,对文本侧采用mask predict的方式进行训练;
b2、shift predict训练:
b21、采用seq-to-seq LM的模式、即左侧字符对右侧字符和网络信息不可见,从而对步骤b1中训练后的文本进行训练;
b22、在步骤b21训练过程中,同时在模型的输入过程加入少许噪声,从而确保训练过程中识别更多的字符;
b3、uniLM训练:进行步骤b1与步骤b2的往复循环训练,直至完成最终的文本侧训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于傲雄在线(重庆)科技有限公司,未经傲雄在线(重庆)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110629876.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于层次化语义先验的语义分割方法
- 下一篇:一种电工用快速自动夹持钳