[发明专利]一种连接优先级算法与图数据库结合的患者身份匹配方法在审
申请号: | 202010616034.9 | 申请日: | 2020-06-30 |
公开(公告)号: | CN112287179A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 丁鹏飞;张检;顾林跃;孙斌 | 申请(专利权)人: | 浙江好络维医疗技术有限公司 |
主分类号: | G06F16/901 | 分类号: | G06F16/901;G06F16/906;G06K9/62 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 陈琦;陈继亮 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 连接 优先级 算法 数据库 结合 患者 身份 匹配 方法 | ||
一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:a、分组,采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量,例如,1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,本发明连接优先级的图结构处理方法能够减小计算量,提高匹配的准确率;同时,将图数据库作为底层的图结构存储,能够极大提高计算效率。
技术领域
本发明设计一种身份匹配方法,尤其涉及一种连接优先级算法与图数据库结合的患者身份匹配方法,属于身份匹配领域。
背景技术
在进行区域医疗信息整合时,经常面对的一个问题是一个患者在多家医疗机构中都有数据记录,但医疗机构之间的系统独立,数据处于隔离的状态,由于各系统都选择自己的患者主键以及患者个人信息大量缺失的现状。实现跨医疗机构的数据共享时,面对多个数据源的患者信息,很难准确找到对应患者,当前的主要方法是通过某种模型,根据患者的个人信息,计算相似度的值,与某一阈值作比较来判断是否属于同一实体信息。目前已经开源的实体匹配框架:dedupe,python的recordlinkage库等,都采用这种思路实现,该方法一次只能对两个数据源的患者信息进行比对,如果有2个以上数据源的患者信息需要匹配,必须按照两两比对的方式,对所有数据源的患者信息依次比对。例如,当有A、B、C三个数据源时,需要 AB,BC,AC分别比对。如果有100个数据源的患者信息需要匹配,则一共需要进行9900次的比对。该方法不够灵活且适用场景非常有限,在大数据量,多数据源的情况下缺乏扩展性。随着医疗信息技术的不断发展,大数据量,多数据源的患者身份匹配需求越来越强烈,当数据量激增,同时需要匹配多个数据源时,传统方法会面临无法解决的k-partite难题以及巨大的计算量。
发明内容
本发明提出基于连接优先级的图计算方法能很好的解决这一问题,且支持在多核或分布式场景下的并行计算,在控制计算复杂度同时达到比较好的匹配效果,同时,作为一种存储图结构的数据库,图数据库在查询数据节点关系时拥有独特的性能优势,将患者作为节点,患者信息之间的相似性及是否属于同一患者作为节点关系,能够提高图计算的效率,快速得到匹配结果,本发明具体实施方式为:
一种连接优先级算法与图数据库结合的患者身份匹配方法,其特征在于所述该方法包括如下步骤:一、构建相似度连接图:
a)分组
采用主流的blocking算法。从患者属性列表中选取一个或几个作为blocking的属性,对不同数据源的各个患者实体进行分组,在组内进行下一步相似值的计算,能够减少后期的计算量。1000个患者在3个不同的数据源各有一条患者信息记录:无blocking步骤,每条不同数据源间的记录都要进行相似度计算,为3×106次;加入 blocking步骤,计算次数理论上最优情况下可以降到3×103次。
b)计算相似值
可以针对患者实体的不同属性(姓名,证件号码,家庭地址等)选择不同的相似值计算方法,常见的有: Jaro-Winkler距离,Jaccard相似度,Levenshtein距离;
可以根据生产环境中,患者实体中不同属性的重要程度设定不同权值,参与计算;
c)阈值匹配
根据经验或者机器学习的方法确定一个合适的阈值,用于判断来自不同数据源的任意2条患者记录是否属于同一患者实体。该阈值的设定无须过于苛刻,这里只是初步筛选,后面的基于连接优先级的聚类方法还将对这里的结果做进一步的处理;
二、图数据库存储:
a.数据库建模
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江好络维医疗技术有限公司,未经浙江好络维医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010616034.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:空气抽取装置及其抽取剩余时间计算方法
- 下一篇:穿刺部位血肿检测平台