[发明专利]一种多语种保单自动识别的控制算法及装置在审
申请号: | 201911220970.1 | 申请日: | 2019-12-03 |
公开(公告)号: | CN110909728A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 刘祥峰;毛国庆;覃亚芬 | 申请(专利权)人: | 中国太平洋保险(集团)股份有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/62;G06N3/04 |
代理公司: | 上海宝鼎专利代理有限公司 31222 | 代理人: | 张宝让 |
地址: | 200010*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语种 保单 自动识别 控制 算法 装置 | ||
本发明公开了一种多语种保单自动识别的控制算法,包括如下步骤:a.基于神经网络引擎对所述保单中的文字信息进行训练,并获得文字区域信息;b.对相邻两个文字的区域信息进行面积区域计算,并将所述两个文字的区域信息所对应面积之和与所述两个文字最大外接矩阵所对应的总面积之比例K大于第一阈值的所述两个文字区域信息进行处理以获得段落文字区域信息;c.基于一个或多个所述段落文字区域信息进行合并处理,从而获得段落文字;d.至少输出所述段落文字。本发明通过对多种类型的保单进行统一处理,提取目标文字,提高工作效率,降低工作成本,本发明操作简单、使用方便,具有极高的商业价值。
技术领域
本发明属于互联网技术领域,特别涉及一种多语种保单自动识别的控制算法及装置。
背景技术
保险单简称“保单”。保险人与投保人签订保险合同的书面证明。保险单的主要内容包括双方对有关保险标的事项的说明,包括被保险人名称,保险标的的名称及其存放地点或所处状态、保险金额、保险期限、保险费等。双方的权利和义务,如承担责任和不予承担的责任等。附注条件,指保险条款或双方约定的其他条件以及保单变更、转让和注销等事项。保险单是签订保险合同的主要表现形式。为简化形式,还可采用具有法律效力的预约保险单,保险凭证或暂保单等形式。
而随着时代的不断进步,越来越多的种类的保单、越来越多的格式的保单以及越来越多元化的语种的保单的出现常常会使得工作人员在实际对保单进行处理时显得非常的困难,从而增加了工作人员的工作压力以及负担,并降低了工作效率。
而如何能够对如此种类、语种繁多的保单进行统一化的处理,提取出需要的文字信息成为了目前该领域亟待解决的技术问题,目前在现有的技术中,并没有一种能够解决上述技术问题的技术方案,具体地,缺少一种多语种保单自动识别的控制算法及装置。
发明内容
针对现有技术存在的技术缺陷,本发明的目的是提供一种多语种保单自动识别的控制算法及装置,根据本发明的一个方面,提供了一种多语种保单自动识别的控制算法,包括如下步骤:
a.基于神经网络引擎对所述保单中的文字信息进行训练,并获得文字区域信息;
b.对相邻两个文字的区域信息进行面积区域计算,并将所述两个文字的区域信息所对应面积之和与所述两个文字最大外接矩阵所对应的总面积之比例K大于第一阈值的所述两个文字区域信息进行处理以获得段落文字区域信息;
c.基于一个或多个所述段落文字区域信息进行合并处理,从而获得段落文字;
d.至少输出所述段落文字。
优选地,所述神经网络引擎为:在图像特征提取网络的基础上构建的文字检测神经网络与带有二维Attention的文字识别的神经网络。
优选地,所述图像特征提取网络作为文字检测与文字识别的共享参数。
优选地,所述步骤a包括如下步骤:
a1'.基于神经网络引擎对参考文字图像、所述保单中的文字信息进行训练,并获得文字区域信息。
优选地,所述文字区域信息至少包括文字区域的上边界、下边界、左边界、右边界。
优选地,所述参考文字图像通过如下步骤获得:
iv.基于背景图的深度信息确定与所述背景图相适应的背景区域梯度信息;
v.随机获得第一文字图像;
vi.采用Possion融合算法对背景图、背景区域梯度信息以及第一文字图像进行处理,从而获得所述参考文字图像。
优选地,所述步骤ii包括如下步骤:
ii1.从字库中随机选择中文以及英文字符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国太平洋保险(集团)股份有限公司,未经中国太平洋保险(集团)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911220970.1/2.html,转载请声明来源钻瓜专利网。