[发明专利]一种基于多维度的机器智能文本识别可信度判别方法在审
申请号: | 202010792742.8 | 申请日: | 2020-08-10 |
公开(公告)号: | CN111881881A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 张成栋;严京旗;卞志强 | 申请(专利权)人: | 晶璞(上海)人工智能科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/40;G06K9/34;G06F40/289;G06F40/30;G06Q40/08;G06N3/08 |
代理公司: | 北京鹏帆慧博知识产权代理有限公司 11903 | 代理人: | 祝辽原 |
地址: | 200333 上海市普*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多维 机器 智能 文本 识别 可信度 判别 方法 | ||
本发明涉及人工智能、语义分析和知识校验技术领域,尤其为一种基于多维度的机器智能文本识别可信度判别方法,其具体步骤如下:步骤100:输入待识别的文本切片图像;本发通过提出的基于多维度的机器智能文本识别可信度判别方法,是自动判断机器智能识别是否正确的重要环节。机器智能文本识别在最后输出层会选择相对概率最大的结果作为识别结果返回,但相对概率最大是基于单一输入图像相关的,对于不同的输入图像,其返回的概率值不具有可比性,因此该概率值不能直接用作机器识别结果的可行度判别。本发明提出的多维度可信度判别方法对于不同的输入文本切片图像具有普适性,从而为机器智能文本识别结果是否可以相信提供了较一致的判别方法。
技术领域
本发明涉及人工智能、语义分析和知识校验技术领域,具体为一种基于多维度的机器智能文本识别可信度判别方法。
背景技术
近年来,随着数字成像设备的普及和深度学习算法的广泛应用,智能文本识别工具不断涌现,如汉王、合合、阿里云识别、腾讯云识别、百度云识别、华为云识别等,文本识别精度不断提升。但是,目前已有的文本识别工具,除了返回识别结果和坐标位置,很难对识别结果是否完全可信或是否需要人工再审核做出判别,在医疗票据理赔等需要极高准确率的应用场合,无法做到完全的人机分离就无法起到降本增效的作用,不能满足极高精度文本识别和结构化数据采集的应用需求。
综上所述,本发明通过设计一种基于多维度的机器智能文本识别可信度判别方法来解决存在的问题。
发明内容
本发明的目的在于提供一种基于多维度的机器智能文本识别可信度判别方法,通过多引擎识别结果一致性、可识别信息完整度、上下文语义逻辑规则、字段内先验知识规则、关联字段知识校验规则等维度对机器识别结果进行全面评估,得到高度可靠的机器识别结果可信度,满足实际应用场合中高精度、高自动化率、预期结果可控的需求。
为实现上述目的,本发明提供如下技术方案:
一种基于多维度的机器智能文本识别可信度判别方法,其具体步骤如下:
步骤100:输入待识别的文本切片图像;
步骤200:从多个识别引擎中获取文本识别结果,并从多引擎识别结果一致性维度进行可信度判别;
步骤300:提取文本图像的有效像素,并统计已识别像素和总体有效像素,从可识别信息完整度维度进行可信度判别;
步骤400:从上下文语义维度进行可信度判别;
步骤500:确定文本切片所处内容的先验知识,从先验知识规则维度进行可信度判别;
步骤600:确定文本切片的关联内容,从关联知识规则维度进行可信度判别;
步骤700:综合多维度,确定机器智能文本识别的最终可信度;
步骤800:对于不同应用场合,采用不同的可信度阈值,得出完全采纳、存疑、或不采纳机器智能文本识别的判别结果。
进一步的,所述步骤100获取待识别文本图像切片的方法为以下三种方法之一:
方法1是用智能文本检测工具得到的文本框局部图像;
方法2是采用交互式裁剪工具得到的文本框局部图像;
方法3是读取一个预先存储的文本切片图像文件。
进一步的,所述步骤200为从多引擎识别结果一致性维度进行可信度判别,具体包括如下步骤:
步骤210,采用多个网络结构互异的深度学习神经网络模型(例如ResNet、DarkNet、Attraction等)训练得到的智能文本识别引擎,得到输入文本图像切片的文本识别结果(包括位置信息和文字信息)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶璞(上海)人工智能科技有限公司,未经晶璞(上海)人工智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010792742.8/2.html,转载请声明来源钻瓜专利网。