[发明专利]一种将病历文本从自然语言转换为结构化元数据的方法有效
申请号: | 201811511195.0 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109710670B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 曾凡;邰海军;黄锦;柯钦瑜;黄勇;段惠峰 | 申请(专利权)人: | 萱闱(河南)生命科学研究院有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G16H10/60 |
代理公司: | 郑州中原专利事务所有限公司 41109 | 代理人: | 李想 |
地址: | 450000 河南省郑州市中原区华山路220号4号楼一*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病历 文本 自然语言 转换 结构 数据 方法 | ||
1.一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于,包括以下步骤:
步骤一:从历史检测报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征值字典;
步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;
步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;
所述步骤三包括以下子步骤:
7)生成检测报告“内容”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的 “住院号”、“内容”和“检查项目”所在列的数据,根据“检测项目”,选择对应的特征值字典,根据特征值字典截取对应部位的说明;
8)生成检测报告“病症”和“治疗方法”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的 “住院号”、“病症”和“治疗方法”所在列的数据,如果出现了“术”字,且没有出现“术后”,则选择“病症”的特征值字典,如果出现了“术”字,则选择“治疗方法”的特征值字典,根据特征值字典截取对应部位的说明;
所述子步骤7)包括以下步骤:
7.1)对“内容”文本进行分段:如果报告中出现了逗号、句号、分号和冒号,则将文本按这些标点符号进行分段,生成一个以分段后独立语句为元素的一维矩阵;
7.2)根据特征值生成二维矩阵:遍历一维矩阵,将其中内容数据段与特征值字典进行比较,如果该数据段包括了特征值字典中的特征,则将该部分及该部分后没有见到下一个特征值前的元素放入矩阵数据格式的“列”,特征值作为该 “行”第一列;
7.3)二维矩阵行拆分:对二维矩阵的“行”进行遍历,得到每列数据,遍历“列”数据,如果该行除了第一“列”还有其他的文本在特征值字典中,则复制该“行”的所有“列”到新的“行”,并将该特征值作为新 “行”第一列;
7.4)二维矩阵行合并:对二维矩阵的“行”进行遍历,得到每列数据,遍历“列”数据,如果有多“行”第一列的特征值有相同的内容,这对这些“行”进行合并;
7.5)每个二维矩阵都是一个患者病例内“内容”的结构化内容,“住院号”是这个矩阵的唯一标志,将他们作为一个“键值对”数据结构进行存储,其“键”是“住院号”,“值”是结构化的“内容”;
步骤四:将该部位截取的数据内容持久化至结构化的数据库中。
2.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤一特征值提取包括如下子步骤:
1)导出历史检测报告,将检测报告合并后生成一个大的报告表格,表格内容中需要包括:“内容”,“检查项目”,“病症”,“治疗方法”;
2)将每个检查项目对应的“内容”,进行中文分词处理,并将每个不重复的词语列出,并在其后对其统计出现次数后排序;
3)将排序后得到的分词,经医生的删除和补充,得到该医院检查项目对应的内容的特征值字典;
4)重复步骤2)和3)可以生成每一个检查项目对应的病症和治疗方法的特征值字典。
3.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤二包括以下子步骤:
5)导出历史数据,以合并的方式准备数据集;
6)遍历数据集,并将导出的数据表合并,得到“住院号”、“患者姓名”、“患者年龄”、“就诊时间” 、“内容”、“病症”、“检查项目”和“治疗方法”,其中“住院号”是患者本次检查的唯一标志,如果报告中的病症和治疗方法是写在一起的, “治疗方法”为空。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于萱闱(河南)生命科学研究院有限公司,未经萱闱(河南)生命科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511195.0/1.html,转载请声明来源钻瓜专利网。