[发明专利]临床医疗实体及其属性抽取方法有效
申请号: | 201811476992.X | 申请日: | 2018-12-03 |
公开(公告)号: | CN109800411B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 汤步洲;石雪;陈清财;王晓龙;熊英;蒋德焕 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06N5/025 | 分类号: | G06N5/025;G06F16/35;G06F40/211;G06F40/216;G06F40/253;G06F40/268;G06F40/284;G06F40/30;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/047;G06N3/048 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请涉及一种临床医疗实体及其属性抽取方法。该方法包括:3个模块:(1)预处理;(2)句子的信息全面性表示;(3)临床医疗实体及其属性抽取的联合学习。其中联合学习方法主要包括两种方式:(1)串行联合方式;(2)并行联合方式。串行联合方式又分为3个子模块:(1)临床医疗实体‑属性识别;(2)临床医疗实体‑属性关系抽取;(3)联合学习;并行联合方式是采用序列标注的方法进行临床医疗实体及其属性联合抽取。该方法对临床医疗辅助决策、临床医疗研究等具有重要意义。 | ||
搜索关键词: | 临床 医疗 实体 及其 属性 抽取 方法 | ||
【主权项】:
1.一种基于深度学习的临床医疗实体及其属性“串行联合”抽取方法,其特征在于,所述方法包括如下步骤:(1)采用基于规则的方法对原始电子病历进行数据清洗、章节头检测、句子边界检测、Tokenization预处理;(2)利用深度学习算法对输入语句进行表示,包括CNN‑RNN句子表示、多通道句子表示和Seq2Seq句子表示;(3)将临床医疗“实体/属性”识别任务看作一个序列标注问题,采用Begin Inside Last Outside Unit表示方法,即“BILOU”表示方法对包含临床医疗实体和属性的句子进行标注:首先利用Attention机制对句子中每一个词与其他词之间的相关性进行建模,然后利用NN方法和结构化预测方法完成序列标注;(4)根据临床医疗实体和属性之间的修饰约束关系对所有可能的<实体,属性>对候选进行过滤;(5)将过滤之后的关系候选通过神经网络框架对<实体,属性>关系候选进行表示;(6)将临床医疗“实体‑属性”关系抽取任务看作一个分类问题,利用NN方法对表示后的<实体,属性>对候选进行关系分类;(7)在模型的训练过程中,对“实体/属性”识别的损失函数Le和“实体‑属性”关系抽取的损失函数Lr的进行线性组合:L=αLe+(1‑α)Lr其中,α是一个组合系数,用于调节每部分的权重,α越大,表示“实体/属性”识别对模型的影响越大,反之亦然,Le和Lr均采用交叉熵作为实体和属性识别的损失函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811476992.X/,转载请声明来源钻瓜专利网。