[发明专利]一种应用于医疗领域文档的OCR和信息抽取方法在审

申请号：	202010641082.3	申请日：	2020-07-06
公开（公告）号：	CN111985306A	公开（公告）日：	2020-11-24
发明（设计）人：	刘峥嵘;王岩;张国强;孟齐源;许可;李景阳	申请（专利权）人：	北京欧应信息技术有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/20;G06K9/46
代理公司：	北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617	代理人：	黄淑娟
地址：	100020 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种应用于医疗领域文档 ocr 信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种应用于医疗领域文档的OCR和信息抽取方法，其特征在于，包括：

获取图像信息；

对所述图像信息进行分析，确定所述图像信息内的表格区域和文本区域；

通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行；

通过OCR文字识别算法将所述文本行转换成文本信息；

通过抽取算法提取所述文本信息中的关键信息；

将所述关键信息存储到已存的结构化点位信息模版，完成对所述医疗领域文档的抽取。

2.根据权利要求1所述的方法，其特征在于，所述确定所述图像信息内的表格区域包括：

获取所述图像信息中的所有横线和竖线；

将任意两条横线和任意两条竖线进行组合；

判断所述组合是否符合单元格的构建规则；

如是，则将邻近的单元格进行组合形成所述表格区域。

3.根据权利要求2所述的方法，其特征在于，所述文本区域内的文本行包括：

位于所述单元格外的由相邻文本行组成的文本块。

4.根据权利要求3所述的方法，其特征在于，所述通过抽取算法提取所述文本信息中的关键信息包括：

获取所述文本区域四个角的坐标；

对所述坐标的纵轴的值进行从高到低的排序；

通过所述坐标的纵轴的值和所述单元格的高度判断所述文本信息是否同一行内容；

如所述坐标的纵轴的值和所述单元格的高度在阈值范围内，则所述文本信息是同一行内容；

将属于同一行内容的文本信息进行合并；

将合并后的文本信息传进预设函数；

根据提取规则提取所述预设函中的文本信息中的关键信息。

5.根据权利要求4所述的方法，其特征在于，所述提取规则包括：

根据键值对应的方法确定所述文本信息中的关键信息；

对所述关键信息进行依次提取，若第N次提取的关键信息中的键包含第N+1次提取的关键信息中的键，则对第N次提取的关键信息进行截断。

6.根据权利要求5所述的方法，其特征在于，所述提取规则还包括：

赋予每一个关键信息一个置信度；

若提取的任意两条关键信息键一样值不一样时，则提取置信度高的关键信息。

7.根据权利要求6所述的方法，其特征在于，所述关键信息包括：

患者的个人基本信息、病历信息、检验结果信息和/或诊断结论信息。

8.一种设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～7中任一项所述的生成方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京欧应信息技术有限公司，未经北京欧应信息技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010641082.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种以关节运动功能为核心的骨科知识图谱
下一篇：一种构建骨科知识图谱的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种应用于医疗领域文档的OCR和信息抽取方法在审

专利文献下载