[发明专利]一种应用于医疗领域文档的OCR和信息抽取方法在审

申请号：	202010641082.3	申请日：	2020-07-06
公开（公告）号：	CN111985306A	公开（公告）日：	2020-11-24
发明（设计）人：	刘峥嵘;王岩;张国强;孟齐源;许可;李景阳	申请（专利权）人：	北京欧应信息技术有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06K9/46
代理公司：	北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617	代理人：	黄淑娟
地址：	100020 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用于医疗领域文档 ocr 信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开的实施例提供了一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。所述方法包括获取图像信息；对所述图像信息进行分析，确定所述图像信息内的表格区域和文本区域；通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行；通过OCR文字识别算法将所述文本行转换成文本信息；通过抽取算法提取所述文本信息中的关键信息；将所述关键信息存储到已存的结构化点位信息模版，完成对所述医疗领域文档的抽取。以此方式，可以对文档内容进行智能识别和关键信息的抽取，降低人工抄录和整理的工作量，提高了工作效率。

技术领域

本公开的实施例一般涉及医疗领域，并且更具体地，一种应用于医疗领域文档的OCR和信息抽取方法、设备和计算机可读存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

传统医疗行业涉及大量的文档信息，例如，挂号单、化验单、处方单、门诊诊疗手册、住院病历等。这些信息大多存在于各类医院信息系统中，以纸质形式或屏幕显示作为使用者的访问媒介。对医务工作者来说，存在将其规范化整理并保存的需求。

当前，对文档信息进行整理的方法主要是通过人工拷贝或者以录入的方式将其保存到MS Excel等电子表格系统中，来实现所述文档信息的数字化和结构化。

可见，通过上述方法对文档信息进行整理的缺点是显而易见的，费时费力，需要大量的人力成本。

发明内容

根据本公开的实施例，针对上述问题，提供了一种应用于医疗领域文档的OCR和信息抽取方法，能够对文档内容进行智能识别和关键信息的抽取，提高工作效率。

在本公开的第一方面，提供了一种应用于医疗领域文档的OCR和信息抽取方法。该方法包括：

获取图像信息；

对所述图像信息进行分析，确定所述图像信息内的表格区域和文本区域；

通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行；

通过OCR文字识别算法将所述文本行转换成文本信息；

通过抽取算法提取所述文本信息中的关键信息；

将所述关键信息存储到已存的结构化点位信息模版，完成对所述医疗领域文档的抽取。