[发明专利]一种基于金融领域应用场景的字符识别方法在审

专利信息
申请号: 202010182564.7 申请日: 2020-03-16
公开(公告)号: CN111340032A 公开(公告)日: 2020-06-26
发明(设计)人: 赵富强;余炅桦;徐雪 申请(专利权)人: 天津得迈科技有限公司
主分类号: G06K9/34 分类号: G06K9/34;G06K9/62;G06K9/68;G06N3/04
代理公司: 合肥律众知识产权代理有限公司 34147 代理人: 殷娟
地址: 300457 天津市滨海新区经济技术开*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 金融 领域 应用 场景 字符 识别 方法
【权利要求书】:

1.一种基于金融领域应用场景的字符识别方法,其特征在于:包括以下步骤:

S1、对单据进行扫描,对扫描后的图像进行前景提取,将单据从图像背景中分离出来;

S2、从单据中提取识别检测区域图片;

S3、利用训练后的手写体识别模型,对手写体检测区域图片进行识别;

S4、利用训练后的打印体识别模型,对打印体检测区域图片进行识别;

S5、汇总识别结果并输出。

2.根据权利要求1所述的基于金融领域应用场景的字符识别方法,其特征在于:所述对扫描后的图像进行前景提取,将单据从图像背景中分离出来,包括以下步骤:

S1、进行前景增强,通过中值滤波、二值化、灰度化增大单据与图像背景的色差;

S2、进行单据分割,通过统计扫描图像在水平方向、竖直方向上的像素和判定单据在扫描图像上的边界,并将单据与图像背景分离。

3.根据权利要求2所述的基于金融领域应用场景的字符识别方法,其特征在于:所述中值滤波的方框尺寸为257。

4.根据权利要求2所述的基于金融领域应用场景的字符识别方法,其特征在于:若所述水平方向上的像素和超过设定阈值,则判断该行为单据所在区域;若所述竖直方向上的像素和超过设定阈值,则判断该列为单据所在区域。

5.根据权利要求1所述的基于金融领域应用场景的字符识别方法,其特征在于:所述从单据中提取识别检测区域图片,包括以下步骤:

S1、利用相对坐标法对单据中的检测区域图片进行分割提取;

S2、判断分割提取得到的检测区域图片属于手写体检测区域图片还是打印体检测区域图片,并进行分类。

6.根据权利要求5所述的基于金融领域应用场景的字符识别方法,其特征在于:所述手写体检测区域图片的识别方法包括单字识别和多字识别,所述单字识别包括以下步骤:

S1、分别采用直方图法、K-means聚类法、CRAFT法对手写体检测区域图片进行单字分割;

S2、对单字分割后的图像进行二值化处理以去除背景;

S3、采用VGG16模型对每个处理后的单字图像进行识别,在VGG16模型中的全连接层后连接SoftMax层计算该单字图像属于各类字的概率,并输出概率最大的那个字作为VGG16模型的预测结果;

S4、根据单字纠错规则对识别结果进行纠错。

7.根据权利要求6所述的基于金融领域应用场景的字符识别方法,其特征在于:所述单字纠错规则包括:

若识别结果不出现在零、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、亿、万、仟、佰、元、角、分、整这19个汉字中,则对预测结果依据概率值降序排序,并输出前十个汉字;

若前十个汉字中出现了19个汉字中的单个或多个,则输出索引号最小的汉字作为识别结果;

若前十个汉字中未出现19个汉字中的任意一个,则选择索引号最小的汉字,并从纠错词典中查找该汉字对应的正确字符。

8.根据权利要求6所述的基于金融领域应用场景的字符识别方法,其特征在于:所述多字识别包括以下步骤:

S1、采用CRNN模型进行识别;

S2、对识别结果进行多字识别纠错。

9.根据权利要求8所述的基于金融领域应用场景的字符识别方法,其特征在于:所述CRNN模型由CNN卷积层、RNN循环层、CTC转录层组成,所述CNN卷积层由VGG16模型构成,所述RNN循环层采用BLSTM对CNN卷积层输入的序列进行预测,所述CTC转录层通过CTCLoss将RNN循环层获取的序列信息转换成最终识别结果。

10.根据权利要求8所述的基于金融领域应用场景的字符识别方法,其特征在于:所述对识别结果进行多字识别纠错,包括以下步骤:

S1、依据识别对象建立相应模板;

S2、通过比较识别结果与模板之间的差别对识别结果进行多字识别纠错。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津得迈科技有限公司,未经天津得迈科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010182564.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top