[发明专利]基于OCR图片识别的模版定位方法、装置和计算机设备在审

申请号：	201911031358.X	申请日：	2019-10-28
公开（公告）号：	CN110909733A	公开（公告）日：	2020-03-24
发明（设计）人：	田立文	申请（专利权）人：	世纪保众（北京）网络科技有限公司
主分类号：	G06K9/32	分类号：	G06K9/32;G06K9/62
代理公司：	北京金蓄专利代理有限公司 11544	代理人：	姚金良
地址：	102600 北京市大兴区北京经***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 ocr 图片识别模版定位方法装置计算机设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。所述方法包括：获取待训练的图片数据；识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；按照所述图片特性对所述图片数据进行分类；针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；根据所述图片特性对所述数据集进行训练，获得模版定位模型。采用本方法能够有效解决因保单图片数据量少而无法进行模型训练的问题，提高保单分类的精确性，并提高运行效率。

技术领域

本申请涉及软件开发技术领域，特别是涉及一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质。

背景技术

在传统的保单识别领域，通常是根据用户手动输入纸质保单中的数据来进行数据填写，而随着科技的进步，智能保单识别技术应运而生，比如目前迅速发展的OCR图像识别技术，已经广泛应用于身份证、银行卡以及各种保单的识别中，对于身份证和银行卡的OCR识别，其文本位置固定比较方便处理，而保单OCR由于险种种类繁多，样式、条款和排版均不相同，需要针对每一类相同的保单都制作模板来进行分类。

目前对保单模版的建立是通过机器学习对每一图片进行特征提取后，对特征数值进行向量机分类，但这种方法需要对大量保单数据进行训练并且运算过程慢，而且经常出现数据集不足的问题，使得保单OCR的模板定位很复杂。

发明内容

基于此，有必要针对上述技术问题，提供一种基于OCR图片识别的模版定位方法、装置、计算机设备和存储介质,有效解决因保单图片数据量少而无法进行模型训练的问题，提高保单分类的精确性，并提高运行效率。

一种基于OCR图片识别的模版定位方法，所述方法包括：

获取待训练的图片数据；

识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息，并通过大数据分析确定所述图片数据的图片特性；

按照所述图片特性对所述图片数据进行分类；

针对每一分类下的一张图片数据进行预处理，获得多张与该图片关联的附加图片数据，并生成数据集；

根据所述图片特性对所述数据集进行训练，获得模版定位模型。

在其中一个实施例中，在获取待训练的图片数据之后，还包括：

通过机器学习对所述图片数据进行粗分类处理。

在其中一个实施例中，识别所述图片数据中的特定文本区域，确定所述特定文本区域的位置信息包括：