[发明专利]模版定位方法、装置和计算机设备在审
申请号: | 201911112369.0 | 申请日: | 2019-11-14 |
公开(公告)号: | CN110929614A | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 杨喆 | 申请(专利权)人: | 杨喆 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/62 |
代理公司: | 北京金蓄专利代理有限公司 11544 | 代理人: | 姚金良 |
地址: | 102600 北京市大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模版 定位 方法 装置 计算机 设备 | ||
本申请涉及一种模版定位方法、装置、计算机设备和存储介质。所述方法包括:获取保单模板图片;识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;按照所述图片特性对所述保单模板图片进行分类;针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;根据所述图片特性对所述数据集进行训练,获得模版定位模型。采用本方法能够有效解决因保单保单模板图片量少而无法进行模型训练的问题,提高保单分类的精确性,并提高运行效率。
技术领域
本申请涉及软件开发技术领域,特别是涉及一种模版定位方法、装置、计算机设备和存储介质。
背景技术
在传统的保单识别领域,通常是根据用户手动输入纸质保单中的数据来进行数据填写,而随着科技的进步,智能保单识别技术应运而生,比如目前迅速发展的OCR图像识别技术,已经广泛应用于身份证、银行卡以及各种保单的识别中,对于身份证和银行卡的OCR识别,其文本位置固定比较方便处理,而保单OCR由于险种种类繁多,样式、条款和排版均不相同,需要针对每一类相同的保单都制作模板来进行分类。
目前对保单模版的建立是通过机器学习对每一图片进行特征提取后,对特征数值进行向量机分类,但这种方法需要对大量保单数据进行训练并且运算过程慢,而且经常出现数据集不足的问题,使得保单OCR的模板定位很复杂。
发明内容
基于此,有必要针对上述技术问题,提供一种模版定位方法、装置、计算机设备和存储介质,有效解决因保单保单模板图片量少而无法进行模型训练的问题,提高保单分类的精确性,并提高运行效率。
一种模版定位方法,所述方法包括:
获取保单模板图片;
识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息,并通过大数据分析确定所述保单模板图片的图片特性;
按照所述图片特性对所述保单模板图片进行分类;
针对每一分类下的一张保单模板图片进行预处理,获得多张与该图片关联的附加保单模板图片,并生成数据集;
根据所述图片特性对所述数据集进行训练,获得模版定位模型;
确定模块,适于基于所述模版定位模型确定待处理的保单图片。
在其中一个实施例中,在获取保单模板图片之后,还包括:
通过机器学习对所述保单模板图片进行粗分类处理。
在其中一个实施例中,识别所述保单模板图片中的特定文本区域,确定所述特定文本区域的位置信息包括:
对粗分类处理后的每一类图片中的特定文本对应的区域进行坐标截取,获得该区域的坐标信息;
根据预设算法对所述坐标信息进行距离转换,得到所述图片特性。
在其中一个实施例中,预处理包括:
将每一分类下的全部保单模板图片按照预设截取规则进行截取;
将截取后的图片按照不同角度进行旋转,生成多张保单模板图片,并进行数据编码标注。
在其中一个实施例中,所述图片特性包括板式统一的特性。
在其中一个实施例中,还包括:
根据板式统一的特性,通过卷积神经网络对所述数据集进行训练。
在其中一个实施例中,在训练数据集之前还包括:
将所述数据集缩小至设定大小,并进行零均值化处理,将特定文本区域数据转换填入图像数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨喆,未经杨喆许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911112369.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水中全硫的检测方法
- 下一篇:一种新型碳纤维鞋底及其制备方法