[发明专利]医疗票据中名称提取及标准化方法、装置、计算设备及存储介质在审
申请号: | 202110952861.X | 申请日: | 2021-08-19 |
公开(公告)号: | CN113762100A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 赵鑫;谭谞 | 申请(专利权)人: | 杭州米数科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/284;G06Q40/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 曹兆霞 |
地址: | 310013 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 票据 名称 提取 标准化 方法 装置 计算 设备 存储 介质 | ||
1.一种医疗票据中名称提取及标准化方法,其特征在于,包括以下步骤:
获取医疗票据OCR识别结果;
依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型;
对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围;
根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本;
从半结构化的关键词对应内容文本中提取名称,并对提取的名称进行标准化处理,以得到名称对应的标准名称。
2.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述依据OCR识别结果对医疗票据进行分类,以确定医疗票据类型,包括:
依据医疗票据的表头文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
依据医疗票据中特定文本语义与医疗票据类型的映射关系,确定OCR识别结果对应的医疗票据类型;或/和,
利用分类模型对输入OCR识别结果进行计算,以确定OCR识别结果对应的医疗票据类型。
3.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述对OCR识别结果基于关键词进行名称内容范围分析,以提取名称内容范围,包括:
针对单栏排布的医疗票据对应的OCR识别结果,以关键词所在行为初始行,逐行向上进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容的文字描述,则认为当前行的下一行为关键词对应的名称内容范围的开始行,并将关键词移至开始行的首位置;
以关键词所在行为初始行,逐行向下进行判断,若当前行首位置的第一个元素的中心坐标与关键词的中心坐标相差不到一个字符,或当前行存在不属于关键词对应内容文字的描述,则认为当前行的上一行为关键词对应的名称内容范围的结束行;
所述开始行到所述结束行包含的所有内容形成关键词对应的名称内容范围,且该名称内容范围的首位置为关键词;将整理好的名称内容范围对应的OCR块列表顺序插入到关键词所在行;
针对双栏排布的医疗票据对应的OCR识别结果会存在至少2个关键词,对双栏中的每一栏中的每个关键词,按照针对单栏排布的医疗票据对应的OCR识别结果中关键词对应的名称内容范围确定方法确定每个关键词对应的名称内容范围的开始行与结束行,并移动关键词到开始行的首位置;
针对每个关键词,从其开始行到结束行逐行向下进行判断,若当前行中元素中心坐标小于其他关键词中心坐标,则该元素属于当前关键词,否则属于其他关键词,依次进一步确定每个关键词对应的名称内容范围;
将提取的关键词对应的名称内容范围作为一个块插入到关键词所在行。
针对表格排布的医疗票据对应的OCR识别结果,关键词所在行即为表头行,也为名称内容范围的开始行,将表头行中的每个元素作为单独一列,从表头行开始,逐行向下进行判断,若当前行存在不属于关键词对应内容的文字描述,则认为当前行的上一行为名称内容范围的结束行;
从开始行到结束行,逐行向下判断,依据当前行中的每个元素与表头中的每个元素的距离,将元素归到距离最近的表头中元素对应的那列。
4.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述根据名称内容范围和与医疗票据类型对应的关键词描述规则对医疗票据内容进行半结构化处理,以得到半结构化的关键词对应的内容文本,包括:
依据每类医疗票据包含的信息确定每类医疗票据类型对应的每个关键词描述规则;
针对提取的名称内容范围,确定对应的医疗票据类型及关键词,然后,利用与确定的医疗票据类型和关键词对应的关键词描述规则,对医疗票据内容进行文本切分,以得到半结构化的关键词对应的内容文本。
5.根据权利要求1所述的医疗票据中名称提取及标准化方法,其特征在于,所述从半结构化的关键词对应的内容文本中提取名称,包括:
依据深度学习网络构建名称提取模型,利用名称提取模型从半结构化的关键词对应的内容文本中提取名称;
优选地,名称提取模型采用Bert+CRF结构,利用Bert结构进行词嵌入特征提取,利用CRF结构根据词嵌入特征进行词分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州米数科技有限公司,未经杭州米数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110952861.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种含谷胱甘肽的螯合态液体水溶肥
- 下一篇:屏蔽盖防拆系统及其防拆方法