[发明专利]数据标注方法、装置、计算机设备和存储介质有效
申请号: | 202110686431.8 | 申请日: | 2021-06-21 |
公开(公告)号: | CN113255583B | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 刘东煜;陈乐清;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/14;G06V30/19 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;熊成龙 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 标注 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及人工智能领域,提供了一种数据标注方法、装置、计算机设备和存储介质,获取待标注图片;通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;通过预设规则在第一候选区域框中生成第二候选区域框,并根据第二候选区域框和第一输出数据生成第二输出数据;将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;根据所述标注数据对待标注图片中的字符进行标注。本申请提供的数据标注方法、装置、计算机设备和存储介质,能够对待标注图片中具体字符进行标注,无需标注整行文字。
技术领域
本申请涉及人工智能的技术领域,特别涉及一种数据标注方法、装置、计算机设备和存储介质。
背景技术
文档智能主要是指对于扫描文档所包含的文本、排版信息,通过人工智能技术进行理解、分类、提取以及信息归纳。根据文档智能技术所得到的结构化数据也可进行更上层的智能化应用,如:信息挖掘、智能决策等。关于文档智能的研究在近年来逐渐兴起。
如在保险领域,保险公司判断客户是否具备投保保险产品的资格,需要根据客户当前身体状况信息及既往史、住院史等信息综合判断。因此需要客户上传提供全面的体检报告单、住院病历等影像,再进行人工复核。目前人工核保一单的平均时长为半小时,这种人工的方式需要花费大量的人力成本,同时可能存在录入错误、不同人员标准参差不齐等问题。通过文档智能技术,将图片转化为结构化信息,再使用结构化信息实现核保业务逻辑,就可以完成智能核保流程,极大降低人工成本。其中文档智能技术一般主要通过OCR(Optical Character Recognition,光学字符识别)技术将图片转换为文本及符号,再应用NLP(Natural Language Processing,自然语言处理)技术转化为结构化信息。
基于大规模标注数据驱动的机器学习及深度学习技术,近几年来在文档智能领域受到越来越多的重视。因此,一套成熟高效的标注体系是探索深度学习文档智能的前提。但在现有的研究中,却未曾提到系统的标注方案,而按照NLP标注任务的惯有思维,常常是在文本上进行标注。比如:我们想标注出住院病历中的出院诊断字段,首先需要采用重排序算法将OCR识别文本散片进行重排序,首尾相连组成长文本,再转换为一项序列标注任务。OCR识别得到的散片以行为单位,数据标注时会标注整行文本数据,但有时候整行文本数据中有些文字并不完全属于该标签,导致数据标注不准确。
发明内容
本申请的主要目的为提供一种数据标注方法、装置、计算机设备和存储介质,旨在解决现有技术中数据标注时数据标注不准确的技术问题。
为实现上述目的,本申请提供了一种数据标注方法,包括以下步骤:
获取待标注图片;
通过OCR识别技术处理所述待标注图片,得到具有若干第一候选区域框的第一图片及对应的第一输出数据,并对所述第一候选区域框进行编号;所述第一输出数据包括编号、所述第一候选区域框的四个顶点的第一坐标、文本识别结果和文本识别结果的置信度;
通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据;其中,所述第一候选区域框的粒度大于所述第二候选区域框的粒度;所述第二输出数据包括所述第一候选区域框的四个顶点的第一坐标、第二候选区域框的四个顶点的第二坐标、字符识别结果和所述第二候选区域框所在的所述第一候选区域框的编号;
将所述第二输出数据输入至预训练完成的标注模型,得到标注数据;
根据所述标注数据对所述待标注图片中的字符进行标注。
进一步地,所述通过预设规则在所述第一候选区域框中生成第二候选区域框,并根据所述第二候选区域框和所述第一输出数据生成第二输出数据的步骤,包括;
根据所述第一候选区域框中各个字符生成所述第二候选区域框,并识别各个所述字符,得到所述字符识别结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110686431.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置