[发明专利]一种应用于医疗领域文档的OCR和信息抽取方法在审
申请号: | 202010641082.3 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111985306A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 刘峥嵘;王岩;张国强;孟齐源;许可;李景阳 | 申请(专利权)人: | 北京欧应信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/46 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 黄淑娟 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 医疗 领域 文档 ocr 信息 抽取 方法 | ||
本公开的实施例提供了一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。所述方法包括获取图像信息;对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域;通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行;通过OCR文字识别算法将所述文本行转换成文本信息;通过抽取算法提取所述文本信息中的关键信息;将所述关键信息存储到已存的结构化点位信息模版,完成对所述医疗领域文档的抽取。以此方式,可以对文档内容进行智能识别和关键信息的抽取,降低人工抄录和整理的工作量,提高了工作效率。
技术领域
本公开的实施例一般涉及医疗领域,并且更具体地,一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
传统医疗行业涉及大量的文档信息,例如,挂号单、化验单、处方单、门诊诊疗手册、住院病历等。这些信息大多存在于各类医院信息系统中,以纸质形式或屏幕显示作为使用者的访问媒介。对医务工作者来说,存在将其规范化整理并保存的需求。
当前,对文档信息进行整理的方法主要是通过人工拷贝或者以录入的方式将其保存到MS Excel等电子表格系统中,来实现所述文档信息的数字化和结构化。
可见,通过上述方法对文档信息进行整理的缺点是显而易见的,费时费力,需要大量的人力成本。
发明内容
根据本公开的实施例,针对上述问题,提供了一种应用于医疗领域文档的OCR和信息抽取方法,能够对文档内容进行智能识别和关键信息的抽取,提高工作效率。
在本公开的第一方面,提供了一种应用于医疗领域文档的OCR和信息抽取方法。该方法包括:
获取图像信息;
对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域;
通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行;
通过OCR文字识别算法将所述文本行转换成文本信息;
通过抽取算法提取所述文本信息中的关键信息;
将所述关键信息存储到已存的结构化点位信息模版,完成对所述医疗领域文档的抽取。
进一步地,所述确定所述图像信息内的表格区域包括:
获取所述图像信息中的所有横线和竖线;
将任意两条横线和任意两条竖线进行组合;
判断所述组合是否符合单元格的构建规则;
如是,则将邻近的单元格进行组合形成所述表格区域。
进一步地,所述文本区域内的文本行包括:
位于所述单元格外的由相邻文本行组成的文本块。
进一步地,所述通过抽取算法提取所述文本信息中的关键信息包括:
获取所述文本区域四个角的坐标;
对所述坐标的纵轴的值进行从高到低的排序;
通过所述坐标的纵轴的值和所述单元格的高度判断所述文本信息是否同一行内容;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧应信息技术有限公司,未经北京欧应信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641082.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种以关节运动功能为核心的骨科知识图谱
- 下一篇:一种构建骨科知识图谱的方法