[发明专利]一种从中文电子病历构建医疗知识图谱的半监督学习方法在审
申请号: | 202011517866.1 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112542223A | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 杨春明;郭鑫;张晖;李波;赵旭剑 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/33;G06F16/35;G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 621000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病历 构建 医疗 知识 图谱 监督 学习方法 | ||
1.一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,包括:
步骤S1:获取中文电子病历的原始数据集,根据原始数据集中的中文电子病历设计出医疗知识描述体系,并人工标记医疗实体关系,初步构建中文电子病历标记语料库;
步骤S2:根据医疗知识描述体系,结合深度神经网络和机器学习算法,使用中文电子病历标记语料库训练知识提取模型,在训练过程中,结合半监督学习算法优化知识提取模型,同时逐步扩展中文电子病历标记语料库,最后使用优化后的知识提取模型从扩展后的中文电子病历标记语料库中提取出所有的医疗知识;
步骤S3:将提取出的医疗知识以三元组的格式存入Neo4j数据库,构建出医疗知识图谱。
2.根据权利要求1所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S1包括:
步骤S11:从专业医学会议所发布的关于中文电子病历的测评任务中,获取中文电子病历的原始数据集;
步骤S12:通过对获取到的中文电子病历的文本特点进行分析,并参考已有的电子病历规范和知识图谱构建的相关权威文献,设计出医疗知识描述体系;
步骤S13:在专业医务人员的指导下,对不同来源的病历进行医疗实体标记的融合,并人工标记部分医疗实体关系,初步构建中文电子病历标记语料库;
步骤S14:对中文电子病历文本进行规范化和向量化处理,将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例细分为训练集、测试集和开发集;其中,标注集表示进行了人工标记的中文电子病历标记语料库,未标注集表示未进行标注的中文电子病历数据集。
3.根据权利要求2所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述测评任务包括中文电子病历命名实体识别、关系抽取、属性抽取和临床术语标准化。
4.根据权利要求3所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S14包括:
步骤S141:对中文电子病历的文本进行规范化处理,包括去除病人隐私信息、切分长句、英文大小写转换和符号的全半角统一;
步骤S142:将病历文本转化为计算机能够识别的数值向量表示形式,原始输入句子设为S={c1,c2,…,ci,…},其中ci表示句子中的第i个字,句子中每一个字都被映射为低维的向量vi=[vchar,vpos,vdep];其中,vchar是使用Gensim工具包训练得到的字向量,vpos是使用THULAC中文分词工具得到的词性特征向量,vdep是依存句法特征向量;
步骤S143:将规范化和向量化后的中文电子病历划分为标注集和未标注集,并将标注集按一定的比例划分为训练集、测试集和开发集;其中,标注集表示进行了人工标记的中文电子病历标记语料库,未标注集表示未进行标注的中文电子病历数据集。
5.根据权利要求1或4所述的一种从中文电子病历构建医疗知识图谱的半监督学习方法,其特征在于,所述步骤S2中,知识提取模型的训练包括医疗实体识别和医疗关系抽取两个过程;
其中,在医疗实体识别过程中,先采用深度神经网络对中文电子病历的文本特征进行自动提取,并结合机器学习算法完成句子标签的自动标注,再使用爬虫代码从医疗健康网站爬取专业医学术语,并结合中文临床药物标准知识库和国际疾病分类编码,整理出中文常见医学术语词典,自动纠正识别错误的实体;
在医疗关系抽取过程中,采用深度神经网络以及机器学习算法自动学习文本特征,然后通过激活函数完成关系类别的预测,实现对医疗实体对之间的关系分类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011517866.1/1.html,转载请声明来源钻瓜专利网。