[发明专利]一种将病历文本从自然语言转换为结构化元数据的方法有效
申请号: | 201811511195.0 | 申请日: | 2018-12-11 |
公开(公告)号: | CN109710670B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 曾凡;邰海军;黄锦;柯钦瑜;黄勇;段惠峰 | 申请(专利权)人: | 萱闱(河南)生命科学研究院有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G16H10/60 |
代理公司: | 郑州中原专利事务所有限公司 41109 | 代理人: | 李想 |
地址: | 450000 河南省郑州市中原区华山路220号4号楼一*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病历 文本 自然语言 转换 结构 数据 方法 | ||
本发明涉及一种将病历文本从自然语言转换为结构化元数据的方法,包括以下步骤:步骤一:从历史病例报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征字典;步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;步骤四:将该部位截取的数据内容持久化至结构化的数据库中。本发明利用历史病例,使用遍历算法,降低了使用成本,免去了训练集的生成步骤,转换后的结构化病例可以方便的对不同器官和部位的病变进行统计、分析和查找,方便医生进行医学研究、编写论文和教学。
技术领域
本发明属于医疗信息领域,具体涉及一种将病历文本从自然语言转换为结构化元数据的方法。
背景技术
随着信息技术的发展和医疗信息化的建设,现在医院都在逐渐使用了结构化报告系统进行报告书写,但是输出到打印报告单上时,影像表现和诊断等信息显示形式单一,基本都是标签和值的形式,又或者是带数字和值的模式,显然这种形式不能应用于所有类型报告中,而国内的医院和各个系统需求又需要文本报告,那就需要医生再重新写一份报告,或者在标签和值的报告形式上进行修改,生成我们的自然语言报告,这样,就增加了医生的工作量,降低了效率。
申请号为“CN201810375610.8”名称为“一种将预结构化数据生成医学报告的方法和系统”的专利采用封装模块进行文字替换达到生成不同结构化报告的目的,然而这种方法对于封装模块内的各字段文字描述无法单独编辑成医生惯用语句,对于医生体验而言仍不符合使用习惯。
发明内容
本发明的目的就是为了解决上述问题,提供这一种将病历文本从自然语言转化为结构化元数据的方法,为大数据分析提供基础的元数据支持。
为了实现上述目的,本发明采用如下技术方案:
一种将病历文本从自然语言转换为结构化元数据的方法,包括以下步骤:
步骤一:从历史检测报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征值字典;
步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;
步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;
步骤四:将该部位截取的数据内容持久化至结构化的数据库中。
所述步骤一特征值提取包括如下子步骤:
1)导出历史检测报告,将检测报告合并后生成一个大的报告表格,表格内容中需要包括:“内容”,“检查项目”,“病症”,“治疗方法”;
2)将每个检查项目对应的“内容”,进行中文分词处理,并将每个不重复的词语列出,并在其后对其统计出现次数后排序;
3)将排序后得到的分词,经医生的删除和补充,得到该医院检查项目对应的内容的特征值字典;
4)重复步骤2)和3)可以生成每一个检查项目对应的病症和治疗方法的特征值字典。
所述步骤二包括以下子步骤:
5)导出历史数据,以合并的方式准备数据集;
6)遍历数据集,并将导出的数据表合并,得到“住院号”、“患者姓名”、“患者年龄”、“就诊时间” 、“内容”、“病症”、“检查项目”和“治疗方法”,其中“住院号”是患者本次检查的唯一标志,如果报告中的病症和治疗方法是写在一起的, “治疗方法”为空。
所述步骤三包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于萱闱(河南)生命科学研究院有限公司,未经萱闱(河南)生命科学研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811511195.0/2.html,转载请声明来源钻瓜专利网。