[发明专利]一种连接优先级算法与图数据库结合的患者身份匹配方法在审
申请号: | 202010616034.9 | 申请日: | 2020-06-30 |
公开(公告)号: | CN112287179A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 丁鹏飞;张检;顾林跃;孙斌 | 申请(专利权)人: | 浙江好络维医疗技术有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/906;G06K9/62 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连接 优先级 算法 数据库 结合 患者 身份 匹配 方法 | ||
1.一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:
a)分组
采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量。1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,为3×106次;加入blocking步骤,计算次数理论上最优情况下可以降到3×103次。
b)计算相似值
可以针对患者实体的不同属性(姓名,证件号码,家庭地址等)选择不同的相似值计算方法,常见的有:Jaro-Winkler距离,Jaccard相似度,Levenshtein距离;
可以根据生产环境中,患者实体中不同属性的重要程度设定不同权值,参与计算;
c)阈值匹配
根据经验或者机器学习的方法确定一个合适的阈值,用于判断来自不同数据源的任意2条患者记录是否属于同一患者实体。该阈值的设定无须过于苛刻,这里只是初步筛选,后面的基于连接优先级的聚类方法还将对这里的结果做进一步的处理;
二、图数据库存储:
数据库建模
各类图数据库系统具有相对统一的建模规范,这里以neo4j为例。数据源中的一条患者信息作为图数据库中的一个节点,患者属性作为节点的属性,数据来源作为节点的标签。例如,某条包含患者姓名、性别、手机号的信息来自系统A,则在图数据库中体现为标签为A的节点,该节点有姓名、性别、手机号三条属性信息。用节点之间的边表示两条数据的相似度,算法中产生的连接强度作为边的标签存储;
图结构导入
步骤1构建了一个节点相似度的无向图,将图结构导入图数据库中。步骤3的方法需要读写图数据库中存储的图结构。利用图数据库对图结构的支持能够提高步骤3的计算效率;
三、基于连接优先级的聚类方法:
步骤2中存储在图数据库中的无向图,记所有vertex(顶点)集合为V,所有edge(边)集合为ε。其中,每个顶点代表一个患者,每条边代表连接的两个顶点之间按照一定计算规则得到的相似度值。通过来自不同数据源之间顶点的相似程度(边两端连接顶点的所属来源即图数据库中的标签和边的值)计算,将边打上强连接εStrong,常连接εNormal和弱连接εWeak的标签,存入图数据库;
计算εStrong顶点的连通性,得到完全连接聚类(Complete Cluster),该聚类必须满足每个数据源有且仅有一条患者信息。将完全连接聚类保存在结果的图结构中,并将完全连接聚类中的边和顶点从当前图结构中移出,得到:
V′←V-VStrong
ε′←(εStrong-εComplete)∪εNormal
计算剩余图V′,ε′的连通性,得到n个连通分量,对每个连通分量进行如下操作:
判断该连通分量的每个顶点是否来自不同的数据源。如果是,则将该连通分量保存在最终的结果中。
如果否,则对该连通分量中的各条边,根据一定的计算方式得到连接优先级,按照优先级的高低进行排序,这里参与判断的参数有edge代表的两条信息的相似度值,连接的强度,出入度情况。依照排序结果对Vertex进行“合并”和“修剪”操作。基本原则是合并后的cluster中不能存在来自同一数据源的患者信息,如果不能满足,则取消本次合并。
2.根据权利要求1所述的连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述步骤3中一定的计算方式为优先级值=相似度值*相似度值权重+连接强度值*连接强度值权重+度数*度数值权重,所述该公式为:P=S*Ws+L*Wl+D*Wd,其中P:优先级值、S:相似度值、Ws:相似度权重、L:连接强度、Wl:连接强度权重、D:度数、Dl:度数权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江好络维医疗技术有限公司,未经浙江好络维医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616034.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:空气抽取装置及其抽取剩余时间计算方法
- 下一篇:穿刺部位血肿检测平台