[发明专利]一种从中文电子病历构建医疗知识图谱的半监督学习方法在审
申请号: | 202011517866.1 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112542223A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 杨春明;郭鑫;张晖;李波;赵旭剑 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/33;G06F16/35;G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 621000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病历 构建 医疗 知识 图谱 监督 学习方法 | ||
本发明涉及中文电子病历处理技术领域,公开了一种从中文电子病历构建医学知识图谱的半监督学习方法。该方法是一种端到端的方法,首先获取中文电子病历原始语料,进行数据预处理、知识描述体系设计和人工标记实体关系等操作,整理相关医学术语构建中文医学分词词典;然后结合机器学习算法和深度神经网络完成知识提取工作,同时结合半监督学习方法逐步扩展中文电子病历标记数据集,将抽取出的所有知识三元组存入Neo4j数据库,构建出医疗知识图谱。本发明提供的方法提供了一种中文电子病历标注语料,并可以准确的识别出病历中的医疗知识。
技术领域
本发明涉及中文电子病历处理技术领域,尤其涉及一种从中文电子病历构建医学知识图谱的半监督学习方法。
背景技术
知识图谱(Knowledge Graph)的本质上是一种语文网络,其结点代表实体(entity),连线代表实体之间的各种语义关系(relation),能够将零散的知识相互连接.从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。医疗领域的知识图谱构建是目前的一大研究热点。电子病历(Electronic MedicalRecords,EMRs)是指医务人员在医疗活动期间使用电子医疗系统生成的数字化信息。相比于国外英文电子病历领域的大量研究,国内对于中文电子病历的研究工作仍处于起步阶段。中文电子病历是一种宝贵的中文医学资源,包含大量有价值的医疗知识和患者健康信息,但同时中文电子病历也是一种非结构化信息,这为在其之上的医学研究制造了障碍。医疗知识图谱将病历中的医学知识以结构化的方式进行存储、管理、传输和重现,可以帮助建立临床辅助决策系统、个性化健康模型和智能医疗问答等,对于推动智慧医疗的发展具有重要意义。
目前,国内中文电子病历的医学知识图谱主要存在以下难题:
1、由于包含患者敏感信息,且医疗实体和实体关系的标注依赖领域知识,目前国内缺少高质量、大规模的中文电子病历标注语料。
2、中文电子病历包含大量专业医学词汇和特殊字符,且中文的词与词之间没有明显界限,导致句子特征非常复杂、难以提取,现有的技术无法准确地识别出病历中的医疗知识。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种从中文电子病历构建医疗知识图谱的方法,本方法通过数据预处理、知识提取和知识存储三个阶段,将医疗知识从中文电子病历中提取出来并存储,构建成医疗知识图谱。
本发明采用的技术方案如下:
一种从中文电子病历构建医疗知识图谱的半监督学习方法,包括:
步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;
步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。
其中,步骤S1具体包括:
步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;
步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011517866.1/2.html,转载请声明来源钻瓜专利网。