[发明专利]一种应用于医疗领域文档的OCR和信息抽取方法在审
申请号: | 202010641082.3 | 申请日: | 2020-07-06 |
公开(公告)号: | CN111985306A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 刘峥嵘;王岩;张国强;孟齐源;许可;李景阳 | 申请(专利权)人: | 北京欧应信息技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/46 |
代理公司: | 北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617 | 代理人: | 黄淑娟 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 医疗 领域 文档 ocr 信息 抽取 方法 | ||
1.一种应用于医疗领域文档的OCR和信息抽取方法,其特征在于,包括:
获取图像信息;
对所述图像信息进行分析,确定所述图像信息内的表格区域和文本区域;
通过OCR文本行检测算法识别所述表格区域和文本区域内的文本行;
通过OCR文字识别算法将所述文本行转换成文本信息;
通过抽取算法提取所述文本信息中的关键信息;
将所述关键信息存储到已存的结构化点位信息模版,完成对所述医疗领域文档的抽取。
2.根据权利要求1所述的方法,其特征在于,所述确定所述图像信息内的表格区域包括:
获取所述图像信息中的所有横线和竖线;
将任意两条横线和任意两条竖线进行组合;
判断所述组合是否符合单元格的构建规则;
如是,则将邻近的单元格进行组合形成所述表格区域。
3.根据权利要求2所述的方法,其特征在于,所述文本区域内的文本行包括:
位于所述单元格外的由相邻文本行组成的文本块。
4.根据权利要求3所述的方法,其特征在于,所述通过抽取算法提取所述文本信息中的关键信息包括:
获取所述文本区域四个角的坐标;
对所述坐标的纵轴的值进行从高到低的排序;
通过所述坐标的纵轴的值和所述单元格的高度判断所述文本信息是否同一行内容;
如所述坐标的纵轴的值和所述单元格的高度在阈值范围内,则所述文本信息是同一行内容;
将属于同一行内容的文本信息进行合并;
将合并后的文本信息传进预设函数;
根据提取规则提取所述预设函中的文本信息中的关键信息。
5.根据权利要求4所述的方法,其特征在于,所述提取规则包括:
根据键值对应的方法确定所述文本信息中的关键信息;
对所述关键信息进行依次提取,若第N次提取的关键信息中的键包含第N+1次提取的关键信息中的键,则对第N次提取的关键信息进行截断。
6.根据权利要求5所述的方法,其特征在于,所述提取规则还包括:
赋予每一个关键信息一个置信度;
若提取的任意两条关键信息键一样值不一样时,则提取置信度高的关键信息。
7.根据权利要求6所述的方法,其特征在于,所述关键信息包括:
患者的个人基本信息、病历信息、检验结果信息和/或诊断结论信息。
8.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~7中任一项所述的生成方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧应信息技术有限公司,未经北京欧应信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641082.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种以关节运动功能为核心的骨科知识图谱
- 下一篇:一种构建骨科知识图谱的方法