[发明专利]医疗票据中名称提取及标准化方法、装置、计算设备及存储介质在审
申请号: | 202110952861.X | 申请日: | 2021-08-19 |
公开(公告)号: | CN113762100A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵鑫;谭谞 | 申请(专利权)人: | 杭州米数科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/284;G06Q40/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 票据 名称 提取 标准化 方法 装置 计算 设备 存储 介质 | ||
本发明公开了一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,包括:获取医疗票据OCR识别结果;依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;根据名称内容范围与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。该方法和装置能够实现对医疗票据中关键词的快速准确提取和标准化。
技术领域
本发明属于文字提取领域,具体涉及一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质。
背景技术
随着人工智能技术的发展,识别图片中所包含文字内容的OCR(OpticalCharacter Recognition,光学字符识别)技术已经逐渐成熟并应用在各个领域中。图片OCR识别的结果一般为一个列表,列表中每个元素是OCR识别的一个单元,包含一个单元的文本内容,矩形包围框的位置(中心坐标,宽高,旋转角度,行号,列号)。
在保险理赔鉴定领域中,通过人工智能技术正确识别医疗票据中的文字并有效提取其中关键信息可以帮助理赔人员提高审核的效率与准确率,减少保险公司的人力成本,并缩短被保险人的理赔申请等待时间。
在保险理赔鉴定过程中,需要审核被保险人提供的住院相关的医疗票据,找到诊断名称和手术名称,并对诊断名称和手术名称进行标准化,以便审核诊疗过程中是否存在不合理的情况。由于经过OCR识别过后得到的文本信息是一种非结构化的信息,想要提取其中一部分需要的信息需要对非结构化的数据进行结构化或半结构化,这样才有利于提取到想要的信息。
发明内容
鉴于上述,本发明的目的是提供一种医疗票据中名称提取及标准化方法、装置、计算设备及存储介质,以实现对医疗票据中名称的快速准确提取和标准化。
第一方面,实施例提供的一种医疗票据中名称提取及标准化方法,包括以下步骤:
获取医疗票据OCR识别结果;
依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。
在一个实施例中,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:
依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。
在一个实施例中,所述对OCR识别结果进行名称内容范围分析,以提取名称内容范围,包括:
针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州米数科技有限公司,未经杭州米数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110952861.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含谷胱甘肽的螯合态液体水溶肥
- 下一篇:屏蔽盖防拆系统及其防拆方法