[发明专利]一种中文OCR后处理的无监督学习方法在审
申请号: | 201911009431.3 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110781898A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 葛季栋;李传艺;姚林霞;乔洪波;杨关;熊凯奇;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无监督 构建 纠错 卷宗 后处理 法律领域 经典模型 领域知识 人工的 扫描件 语料库 分辨率 准确率 标注 多样性 法律 涵盖 学习 融入 中文 纠正 成熟 监督 研究 | ||
收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,涵盖几十种分辨率,基于大量的法律卷宗数据,并结合法律文书,融入领域知识,来进行对中文OCR后处理的研究。基于经典模型以及成熟OCR(Tesseract、百度OCR),构建了OCR识别模型。获取大量多样性的Witnesses,免去人工的标注。基于OCR识别系统的结果,提出一种基于无监督的多输入OCR纠错方法,构建OCR纠错模型,可以避免人为的大量标记。实验结果表明,在我们的语料库上,提出的非监督的学习模型,在准确率上有一定的提高。也进一步表明了,采用这种多输入无监督的学习方法可以很好地对OCR的识别结果进行纠正。
技术领域
本发明涉及一种法条推荐方法,具体涉及一种中文OCR后处理的无监督学习方法,属于自然语言处理,图像处理技术领域。
背景技术
近年来,最高人民法院围绕全面依法治国战略部署,大力推进人民法院信息化建设。法律卷宗是整个案件审判流程的纸质记录文档,其一般都需要进行电子扫描存档。其内容涵盖很多,包括立案、拘留、逮捕、取保候审等强制措施手续、起诉意见书等涉及程序性的文书资料。也包括案件证据,包括物证照片,证人,被害人的询问笔录,鉴定意见,现场勘验报告等。法律卷宗的数字化,是促进法律智能化,在线化的关键步骤。但是受各种因素影响,比如图片质量较差,或者复杂的页面结构等,识别的结果有时并不是很好。进一步导致卷宗信息的提取受到影响。
OCR一直是图形识别领域一个重要的研究方向。其概念是来自于1929年,德国科学家Tausheck,定义为将印刷体的字符从纸质文档中识别出来。其中数据和方法是图像处理领域最重要的两个驱动因子,甚至是驱动整个人工智能前进的重要因素。
数据方面,目前有很多公开的数据集,同时大量的比赛也为OCR领域提供了充足的数据集。其中包括ICDAR2013,ICDAR2015,COCO-Text,SynthText。其中SynthText数据集包括800,000张图片和8,000,000裁剪图像补丁,其他数据集包含数量不是很多。以上这些都是基于英文的。而中文方面,已经公开出来的数据很少,大多都是自然语言场景下的图片。数据的缺少也是中文OCR的一个问题。
方法方面,传统的OCR大多是基于图像处理(包括图形二值化,像素投影分析,连通域分析等),其一般分为以下三个步骤,图形预处理,字符切分,单字识别。如今,深度学习在OCR中有很好的表现,相继出现了很多优秀的方法。包括RNN,TextCNN,CTPN等等。此外,互联网时代,催生了大量的无标签数据,这也使得人们加大了对无监督学习方法的研究,从而进一步利用这些数据。
一种中文OCR后处理的无监督学习方法的价值正体现在这两方面,一方面基于无监督的多输入OCR纠错方法,可以避免人为的大量标记。法条推荐可以为法官推荐案件可能适用的法条,提高法官的工作效率,帮助法官实现同案同判,确保公平正义,另一方面基于法律卷宗的OCR后处理提升识别的结果,从而进一步可以提取出其中的价值信息,促进法律智能化。
因此本发明以无监督学习为出发点,以经典方法系统为基础,法律卷宗扫描件为数据源,法律文书为领域知识,着重研究了一种中文OCR后处理的无监督学习方法。
发明内容
本发明是一种中文OCR后处理的无监督学习方法,收集了来自法律领域2014年至2018年不同地区的卷宗扫描件,因为扫描器以及各种人为操作影响因素,导致了我们的语料库质量涵盖范围比较广,涵盖几十种分辨率,针对这些,进行了人工的标注,作为我们有监督学习的标签。
根据常用的汉字,模拟真实场景,使用程序批量生成单字图片数据,同样基于领域文书资料,批量生成了很多行数据,同时依据大量法律文书中的重复文本作为我们无监督训练的来源之一,并且对这些数据进行了公开
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911009431.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的语义边缘检测方法
- 下一篇:图像处理方法及电子设备