[发明专利]一种医学疾病诊断记录中实体消歧的方法有效
申请号: | 201710112316.3 | 申请日: | 2017-02-28 |
公开(公告)号: | CN106951684B | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 宋国杰;刘徽;李鹏宇 | 申请(专利权)人: | 北京大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F16/28 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医学 疾病诊断 记录 实体 方法 | ||
1.一种疾病诊断记录中实体消歧的方法,基于异构伴病网络和图模型,对医学疾病诊断记录中多个待消歧的实体进行消歧;疾病诊断记录记作R={R1,R2,...RT|Ri,i=1,...T},Ri表示第i条疾病诊断记录,包含主诊断疾病名称、副诊断疾病名称以及手术名称,所述实体包括疾病实体和手术实体;疾病诊断记录中的医学标注数据记作D={D1,D2,...DK|Di,i=1,...K};所述方法以包含多个待消歧的实体mi和oi的待消歧记录r={m1,m2,...ml1;o1,o2,...ol2}作为输入,将待消歧记录r中每一个待消歧实体mi和oi对应的候选实体集合记为所有待消歧实体的候选实体集合记为针对待消歧记录r={m1,m2,...ml1;o1,o2,...ol2},所述方法包括如下步骤:
1)根据医生疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}和医学标注数据D={D1,D2,...DK|Di,i=1,...K},构造异构伴病网络G=(V,E),异构伴病网络节点包括疾病节点和手术节点,其中疾病包括主诊断疾病和副诊断疾病,主诊断疾病对应手术;包括如下过程:
11)将疾病诊断记录R={R1,R2,...RT|Ri,i=1,...T}中的第i条疾病诊断记录Ri表示为Ri={m1,m2,...ml1;o1,o2,...ol2},其中m1表示主诊断疾病名称;m2~ml1表示副诊断疾病名称;o1~ol2表示手术名称;每一条疾病诊断记录Ri中的每一个非标准实体记为mi或oi;
12)由标注数据D构建映射词典,找到每一个非标准实体mi或oi对应的标准实体,记为N(mi)或N(oi);建立映射(mi,N(mi))或(oi,N(oi));
13)将每一条疾病诊断记录Ri中的每个非标准疾病实体对应的标准实体作为伴病网络中的节点,每两个非标准疾病实体mi1、mi2对应的标准实体N(mi1)、N(mi2),i1≠i2之间存在一条边E=(N(mi1),N(mi2)),边(N(mi1),N(mi2))的权重通过式1计算得到:
式1中,count(N(mi1),N(mi2))为N(mi1)、N(mi2)共同出现的疾病记录的条数;count(N(mi1),*)为包含N(mi1)的疾病记录的条数;count(*,N(mi2))为包含N(mi2)的疾病记录的条数;
14)每一条疾病诊断记录Ri中每个非标准的手术实体对应的标准实体作为伴病网络中的节点,每两个不同非标准手术实体oi1、oi2对应的标准手术实体N(oi1)、N(oi2),i1≠i2之间存在一条边E=(N(oi1),N(oi2));边E=(N(oi1),N(oi2))的权重W(N(oi1),N(oi2))表示为(N(oi1),N(oi2))出现的次数与N(oi1)、N(oi2)分别出现的次数之和的比值,通过式1计算得到;
15)每一条疾病诊断记录Ri中的主诊断疾病实体m1对应的手术集合o={o1,...ol2},将每一个手术对应的标准实体作为异构伴病网络中的手术类型节点,m1、oi对应的标准实体N(m1)、N(oi)之间存在一条边,用(m1,oi)出现的次数占N(m1)、N(oi)分别出现的次数之和的比值表示边的权重W(N(m1),N(oi));
16)对每一条疾病诊断记录Ri,执行步骤12)、13)、14)、15),由此构建得到异构伴病网络G=(V,E);
2)构造疾病层次关系网络Gm=(Vm,Em),表示疾病之间的所属关系;
3)对一条待消歧疾病记录中的每一个实体mi、oi,经过数据预处理和多层过滤机制,从疾病编码库、手术编码库和所述疾病层次关系网络Gm中检索,得到候选实体集合或进一步得到所有待消歧实体的候选实体集合具体包括如下过程:
31)对一条待消歧疾病记录中的每一个实体mi或oi,经过数据预处理和多层过滤机制,得到预处理后的待消歧实体;
32)设定编辑距离的相似度阈值为Threshold;根据式2计算编辑距离相似度:
其中,str1和str2分别表示待消歧实体和标准实体,editdis(str1,str2)表示str1、str2的编辑距离;当editSim(str1,str2)≥Threshold时,将str2作为候选实体加入到候选实体集合中;4)利用所有待消歧实体和相应的候选实体集合通过异构伴病网络G构建得到候选实体子图G'=(V',E');包括如下过程:
41)对待消歧的疾病诊断记录中每一个待消歧实体mi或oi,对应的候选实体集合按照的形式转化为由待消歧实体和候选实体构成的对,作为由待消歧实体对应的候选实体构成的子图中的节点;当不同的待消歧实体mi1,mi2,i1≠i2对应同一个候选实体时,视为两个节点和
42)对于41)中构造的节点,节点之间的边由所述异构伴病网络得到,构成子图中节点的边包括:疾病实体和疾病实体之间的边、手术实体和手术实体之间的边、疾病实体和手术实体之间的边;主诊断疾病实体对应的多个候选疾病实体与所有的手术候选实体之间的边;
43)构造的子图中节点之间的边满足约束条件:同一待消歧实体mi或oi对应的候选实体之间没有边相连,表示为删去不满足上述约束条件的边;
由步骤41)、42)和43),得到由待消歧实体对应的候选实体构成的异构子图G'=(V',E');
5)对每一个待消歧实体,通过异构网络个性化网页排名算法He-PPR对所述待消歧实体对应的候选实体节点进行打分;具体包括如下步骤:
51)异构网络中,节点e的贡献由异构网络中不同类型的节点同时决定;节点在随机游走时以概率α随机游走,同时以概率β跳转到当前同一类型节点的子图中的某一固定点s,并以概率γ跳转到另一同类型节点子图中的某一固定点s',其中α+β+γ=1,将(s,s')对节点e的贡献记为coh(s,s')(e);
52)对每一个待消歧实体,根据编辑距离相似度计算得到所述待消歧实体的局部得分和全局得分,所述待消歧实体的得分为局部得分和全局得分之和;
6)输出得分最高的K个节点,作为待消歧实体对应的标准实体;
由此实现实体消歧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710112316.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于玻璃门窗的简易玻璃胶枪
- 下一篇:一种防腐钢管的自动生产线