[发明专利]基于病历特征匹配单基因病名称的方法及系统有效
申请号: | 201810876424.2 | 申请日: | 2018-08-03 |
公开(公告)号: | CN109119132B | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 马旭;曹宗富;喻浴飞;陈翠霞;蔡瑞琨;李乾;高华方 | 申请(专利权)人: | 国家卫生健康委科学技术研究所 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G16H50/70;G06F17/27;G06F17/28 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 单基因 临床特征 特征关系 数据库 病历资料 集合 关联度 相似度 病历 匹配 公共数据库 文献数据库 分词处理 临床医生 特征匹配 自动匹配 自由文本 排序 输出 诊断 参考 | ||
1.一种基于病历特征匹配单基因病名称的方法,其特征在于,包括:
步骤S1,基于单基因病的公共数据库和文献数据库,建立临床特征与单基因病名称的特征关系数据库;
步骤S2,判断患者提供的病历资料为自由文本格式时,执行步骤S3,为标准文本格式时,执行步骤S5;
步骤S3,针对自由文本格式的病历资料进行分词处理,得到包括多个临床特征的第一集合;
步骤S4,计算第一集合中的各临床特征分别与特征关系数据库中每种单基因病对应的临床特征的相似度值,并基于所述相似度值计算第一集合与特征关系数据库中对应单基因病的关联度评分值,执行步骤S7;
步骤S5,从标准文本格式的病历资料中获取包括多个临床特征的第二集合,以及从特征关系数据库中获取每种单基因病对应临床特征的多个集合;
步骤S6,采用临床特征富集度分析算法计算第二集合分别与特征关系数据库中各单基因病对应的临床特征集合的显著性值;
步骤S7,将多个关联度评分值或者多个显著性值排序,并匹配输出与之对应的单基因病名称;其中,
所述步骤S5具体包括:
从标准文本格式的病历资料中获取包括多个临床特征的第二集合A;
获取特征关系数据库中的全部单基因病,每种单基因病中的临床特征组成一个标准集合;
统计标准集合的数量X,并顺序对各标准集合标记;
所述步骤S6具体包括:
步骤S61,从X个标准集合中选择第Y个标准集合作为待处理集合B,设置Y的初始值为1;
步骤S62,采用Jaccard相似性算法计算待处理集合B与第二集合A的相似性系数;
步骤S63,基于所述相似性系数采用Jaccard距离算法计算第二集合A与待处理集合B的距离向量;
步骤S64,利用算法计算第二集合A与集合B的临床特征富集因子系数f,其中,a表示第二集合A包含在待处理集合B中的临床特征数目,b表示特征关系数据库中的临床特征包含在待处理集合B中的临床特征数目,c表示第二集合A不包含在待处理集合B中的临床特征数目,d表示特征关系数据库中的临床特征不包含在待处理集合B中的临床特征数目;
步骤S65,基于所述距离向量的值和所述临床特征富集因子系数f,对待处理集合B做过滤处理,使得未被清除的待处理集合B执行步骤S66;
步骤S66,利用算法计算第二集合A与待处理集合B的显著性值,其中n=a+b+c+d;
步骤S67,当Y<X时,令Y=Y+1,并返回步骤S61,直至X个标准集合全部被选择处理为止。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
从单基因病的公共数据库和文献数据库,获得已知的单基因病及其对应的临床特征;
基于已知的单基因病及其对应的临床特征,建立临床特征与单基因病名称的特征关系数据库;
参照中文人类表型标准用语联盟将特征关系数据库中的外文信息对应翻译成中文信息,以实现对中文版病历资料的识别匹配。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
采集医学术语中的标准词组构建关键词库,以及采集公共数据库和/或文献数据库中的常用词组构建高频词库;
定义Elesticsearch分词器的分词优先级,使其按照关键词分词、高频词分词以及空格分词的优先级顺序对自由文本格式的病历资料进行分词处理;
统计分词处理后得到的N个词组,对应标记为包括N个临床特征的第一集合。
4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括:
从特征关系数据库中提取全部单基因病得到单基因病集合B,所述单基因病集合B中的各单基因病包括M个临床特征Bj;
依次计算N个临床特征中的每个临床特征与各单基因病中的M个临床特征Bj的相似度值;
基于相似度值的计算结果,获取与N个临床特征中的每个临床特征对应的相似度最大值wBj;
根据N个临床特征中各临床特征对应的相似度最大值wBj,计算第一集合与特征关系数据库中单基因病的关联度评分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家卫生健康委科学技术研究所,未经国家卫生健康委科学技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810876424.2/1.html,转载请声明来源钻瓜专利网。