[发明专利]基于病历特征匹配单基因病名称的方法及系统有效
申请号: | 201810876424.2 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109119132B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 马旭;曹宗富;喻浴飞;陈翠霞;蔡瑞琨;李乾;高华方 | 申请(专利权)人: | 国家卫生健康委科学技术研究所 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F17/27;G06F17/28 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于病历临床特征匹配单基因病名称的方法及系统,能够基于患者的病历资料或者临床特征,自动匹配出与其相对应的单基因病名称辅助临床医生参考诊断。该方法包括:基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值;将多个关联度评分值排序,并匹配输出与之对应的单基因病名称。该系统包括上述技术方案所提的方法。 | ||
搜索关键词: | 单基因 临床特征 特征关系 数据库 病历资料 集合 关联度 相似度 病历 匹配 公共数据库 文献数据库 分词处理 临床医生 特征匹配 自动匹配 自由文本 排序 输出 诊断 参考 | ||
【主权项】:
1.一种基于病历特征匹配单基因病名称的方法,其特征在于,包括:步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称;其中,所述步骤S5具体包括:从标准文本格式的病历资料中获取包括多个临床特征的第二集合A;获取特征关系数据库中的全部单基因病,每种单基因病中的临床特征组成一个标准集合;统计标准集合的数量X,并顺序对各标准集合标记;所述步骤S6具体包括:步骤S61,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;步骤S62,采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数;步骤S63,基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量;步骤S64,利用算法计算第二集合A与集合B的临床特征富集因子系数f,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;步骤S65,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S66;步骤S66,利用算法计算第二集合A与待处理集合B的显著性值,其中n=a+b+c+d;步骤S67,当Y<X时,令Y=Y+1,并返回步骤S61,直至X个标准集合全部被选择处理为止。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家卫生健康委科学技术研究所,未经国家卫生健康委科学技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810876424.2/,转载请声明来源钻瓜专利网。