[发明专利]一种中文OCR后处理的无监督学习方法在审
申请号: | 201911009431.3 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110781898A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 葛季栋;李传艺;姚林霞;乔洪波;杨关;熊凯奇;周筱羽;骆斌 | 申请(专利权)人: | 南京大学 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无监督 构建 纠错 卷宗 后处理 法律领域 经典模型 领域知识 人工的 扫描件 语料库 分辨率 准确率 标注 多样性 法律 涵盖 学习 融入 中文 纠正 成熟 监督 研究 | ||
1.一种中文OCR后处理的无监督学习方法,其特征在于包含以下步骤:
步骤(1)数据收集;
步骤(2)数据预处理;
步骤(3)OCR识别模型构建;
步骤(4)无监督纠错模型构建;
步骤(5)实验结果。
2.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(1)中的数据收集,包括卷宗扫描件数据,法律文书数据,程序批量生成数据,构建训练语料。
3.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(2)中数据预处理,具体子步骤包括:
步骤(2.1)对于卷宗数据进行二值化操作。经过二值化后的卷宗图片中背景色(纸张颜色)呈白色,前景色(文字颜色)呈黑色,且的大部分噪点、阴影和其他干扰被去除,通过二值化可以使得图片质量变得干净,方便后续的操作;
步骤(2.2)直线去除。部分图片种可能会存在下划线或者表格框线,因为这些直线可能会影响后续的文字切分效果。所以首先去除这些直接是有必要的;
步骤(2.3)投影直方图。我们使用投影直方图进行字符切分和行切分,投影直方图沿着指定方向累加图中的像素值。沿水平和垂直方向累加分别可以得到水平投影直方图和垂直投影直方图。水平投影直方图可以获得行切分,再进一步使用垂直投影直方图后,可以得到字符切分;
步骤(2.4)图片数据生成,原理是初始化画布,然后根据字库,在画布上写字。同时我们通过一系列图像增强操作,来确保图像数据的多样性。
4.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(3)中对OCR识别模型,具体子步骤包括:
步骤(3.1)单字模型构建;
步骤(3.2)多字模型构建;
步骤(3.3)业界成熟OCR识别系统。
5.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(4)中使用无监督方法,构建OCR纠错模型,是对OCR识别模型的结果,做进一步纠正。具体子步骤包括:
步骤(4.1)编辑距离计算。它是指从一个字符转化到另一个字符中所需要进行的插入,删除,和替换的操作。
步骤(4.2)构建语言模型。基于法律文书,采用5-gram的语言模型。使用KenLM工具,通过语言模型给Witnesses进行一个打分,得分高的作为我们的标记数据,得分低的则会删去。
6.根据权利要求1所述的一种中文OCR后处理的无监督学习方法,其特征在于步骤(5)中具体实验。具体子步骤包括:
步骤(5.1)实验参数设置;
步骤(5.2)对比实验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911009431.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的语义边缘检测方法
- 下一篇:图像处理方法及电子设备