[发明专利]基于病历文本的病人相似性度量装置及方法有效
申请号: | 201810697392.X | 申请日: | 2018-06-29 |
公开(公告)号: | CN108877880B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 张学工;陈文昌;闾海荣 | 申请(专利权)人: | 清华大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F16/33;G06F16/35 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 李玉琦;张超艳 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 病历 文本 病人 相似性 度量 装置 方法 | ||
1.一种基于病历文本的病人相似性度量装置,其特征在于,包括:
病历向量样本库存储部,存储病历样本库中的第一病历文本经过结构化处理形成的第一病历向量;
标签标注部,根据不同的评价指标对第一病历向量标注标签,包括第一标签和第二标签;
预处理部,对第一病历向量进行预处理,根据所述第一标签将第一病历向量转化为第一连续数值型病历向量;
连续病历向量存储部,存储所述第一连续数值型病历向量;
距离度量矩阵获得部,学习所述连续病历向量存储部中的第一连续数值型病历向量,获得距离度量矩阵;
病历向量提取部,提取第二病历文本经过结构化处理形成的第二病历向量;
连续病历向量获得部,通过预处理部对所述第二病历向量进行预处理,获得第二连续数值型病历向量;
比较部,比较第一连续数值型病历向量和第二连续数值型病历向量的相似度;
输出部,根据比较结果选取与第二病历文本的相似度大于第一设定阈值的一个或多个第一病历文本并输出;
其中,所述距离度量矩阵获得部包括:
约束构建模块,根据第二标签构建下式(6)或(7)所示的二元组约束以及下式(8)所示的三元组约束,
S={(xr,xs):xr和xs相似} (6)
D={(xr,xs):xr和xs不相似} (7)
W={(xr,xs,xt):xr和xs相似度高于xr和xt} (8)
其中,S表示两个相似的第一病历向量的二元组约束集合,D表示两个不相似的第一病历向量的二元组约束集合,W表示三元组约束的集合,x表示第一病历向量,xr表示第r个第一病历向量,xs表示第s个第一病历向量,xt表示第t个第一病历向量;
约束选择模块,选择二元组约束或三元组约束作为约束标准;
矩阵获取模块,获取满足所述约束标准和下式(9)的距离度量矩阵,
其中,La表示Lagrange函数,A表示距离度量矩阵,l(A,S,D,W)表示损失函数,λ是不满足约束标准时的惩罚项,λ≥0,V(A)表示距离度量矩阵A的正则项。
2.根据权利要求1所述的基于病历文本的病人相似性度量装置,其特征在于,所述装置还包括:
判断部,判断获得的距离度量矩阵是否符合设定条件,若不符合设定条件,则继续学习第一连续数值型病历向量,若符合设定条件,则存储距离度量矩阵,其中,所述设定条件是将获得的距离度量矩阵应用到病历样本库中对第一病历向量进行分类或聚类,分类准确率相比于未应用所述距离度量矩阵时提升超过5%,或调整兰德系数提高超过0.2。
3.根据权利要求1所述的基于病历文本的病人相似性度量装置,其特征在于,所述比较部包括:
距离获得模块,根据下式(17)计算第一连续数值型病历向量和第二连续数值型病历向量的距离,
其中,x、z分别表示第一病历向量和第二病历向量,xq、zq分别表示第一病历向量和第二病历向量中的第q个向量元素,vq表示第q个向量元素的取值,y表示第一病历向量的标签类别,w表示第二病历向量的标签类别,C表示第一病历向量和第二病历向量中标签类别的总数量,c表示类别数,Pq表示第q个向量元素取值vq条件下分类到第c类的概率,D表示第一病历向量和第二病历向量中向量元素的总数,distA(x,z)表示在距离度量矩阵为A时,第一连续数值型病历向量和第二连续数值型病历向量之间的距离,li,cq表示非零向量L中的第i行,第cq列元素;
排序模块,对获得的距离进行大小排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810697392.X/1.html,转载请声明来源钻瓜专利网。