[发明专利]一种多语种保单自动识别的控制算法及装置在审
申请号: | 201911220970.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110909728A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 刘祥峰;毛国庆;覃亚芬 | 申请(专利权)人: | 中国太平洋保险(集团)股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04 |
代理公司: | 上海宝鼎专利代理有限公司 31222 | 代理人: | 张宝让 |
地址: | 200010*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 保单 自动识别 控制 算法 装置 | ||
1.一种多语种保单自动识别的控制算法,其特征在于,包括如下步骤:
a.基于神经网络引擎对所述保单中的文字信息进行训练,并获得文字区域信息;
b.对相邻两个文字的区域信息进行面积区域计算,并将所述两个文字的区域信息所对应面积之和与所述两个文字最大外接矩阵所对应的总面积之比例K大于第一阈值的所述两个文字区域信息进行处理以获得段落文字区域信息;
c.基于一个或多个所述段落文字区域信息进行合并处理,从而获得段落文字;
d.至少输出所述段落文字。
2.根据权利要求1所述的控制算法,其特征在于,所述神经网络引擎为:在图像特征提取网络的基础上构建的文字检测神经网络与带有二维Attention的文字识别的神经网络。
3.根据权利要求2所述的控制算法,其特征在于,所述图像特征提取网络作为文字检测与文字识别的共享参数。
4.根据权利要求1所述的控制算法,其特征在于,所述步骤a包括如下步骤:
a1'.基于神经网络引擎对参考文字图像、所述保单中的文字信息进行训练,并获得文字区域信息。
5.根据权利要求1至4中任一项所述的控制算法,其特征在于,所述文字区域信息至少包括文字区域的上边界、下边界、左边界、右边界。
6.根据权利要求5所述的控制算法,其特征在于,所述参考文字图像通过如下步骤获得:
i.基于背景图的深度信息确定与所述背景图相适应的背景区域梯度信息;
ii.随机获得第一文字图像;
iii.采用Possion融合算法对背景图、背景区域梯度信息以及第一文字图像进行处理,从而获得所述参考文字图像。
7.根据权利要求6所述的控制算法,其特征在于,所述步骤ii包括如下步骤:
ii1.从字库中随机选择中文以及英文字符;
ii2.基于所述中文以及英文字符生成所述第一文字图像。
8.根据权利要求6或7所述的控制算法,其特征在于,所述步骤i包括如下步骤:
i1.基于背景图的深度信息选择所述背景图中的平坦区域;
ii2.基于所述平坦区域计算获得所述背景区域梯度信息。
9.根据权利要求8所述的控制算法,其特征在于,所述背景图为不包括文字符号的图像。
10.根据权利要求8所述的控制算法,其特征在于,所述背景图的数量不少于2000张。
11.根据权利要求8所述的控制算法,其特征在于,所述背景图的数量不少于5000张。
12.一种多语种保单自动识别的控制装置,其采用权利要求1-11中任一项所述的控制方法,其特征在于,包括:
第一获取装置(1):基于神经网络引擎对参考文字图像、所述保单中的文字信息进行训练,并获得文字区域信息;
第二获取装置(2):对相邻两个文字的区域信息进行面积区域计算,并将所述两个文字的区域信息所对应面积之和与所述两个文字最大外接矩阵所对应的总面积之比例K大于第一阈值的所述两个文字区域信息进行处理以获得段落文字区域信息;
第三获取装置(3):基于一个或多个所述段落文字区域信息进行合并处理,从而获得段落文字;
第一处理装置(4):至少输出所述段落文字。
13.根据权利要求12所述的控制装置,其特征在于,所述第一获取装置(1)还包括:
第一确定装置(11):基于背景图的深度信息确定与所述背景图相适应的背景区域梯度信息;
第四获取装置(12):随机获得第一文字图像;
第五获取装置(13):采用Possion融合算法对背景图、背景区域梯度信息以及第一文字图像进行处理,从而获得所述参考文字图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国太平洋保险(集团)股份有限公司,未经中国太平洋保险(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911220970.1/1.html,转载请声明来源钻瓜专利网。