[发明专利]基于决策树分层的药品不良反应数据遮蔽效应消除的方法有效
申请号: | 202010841630.7 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112133450B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 魏建香;阮倩昀;卢志强 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G16H70/40 | 分类号: | G16H70/40;G16H10/40 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 牛莉莉 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 决策树 分层 药品 不良反应 数据 遮蔽 效应 消除 方法 | ||
1.基于决策树分层的药品不良反应数据遮蔽效应消除的方法,其特征在于:所述方法包括以下步骤:
1)数据的采集:包括原始ADR数据的采集和标准库的采集;
2)数据的预处理:数据的预处理包括对所述原始ADR数据中的不良反应名称规范为标准库中包括的不良反应名称,删除标准库中未包括的药品及其所述未包括药品的不良反应数据,统一化混杂因子所在的字段值,添加药品不良反应是否出现在标准库的字段“是否已知”,记录重复的药品不良反应组合数;
3)构建多级分层的决策树:将原始ADR数据的四个特征“性别”、“年龄”、“是否属于抗生素类”和“地区”视为混杂因子;为了确定主要的三个混杂因子,从上述四个混杂因子中任选三个作为数据的特征,进行下述构建决策树的过程:将“是否已知”字段作为决策任务的类标签,利用WEKA软件中的J48分类算法构建决策树,根据每一个子类中数据实际的类别和预测的类别不一致的比例,来分析分类的精度,再次选择三个不同的混杂因子,重复构建多级分层的决策树的步骤,最后,选择分类精度最高的一组混杂因子;
4)信号检测:从所构建的决策树中得到分类的规则,即将ADR数据按照三个混杂因子的优先顺序分类,根据分类的规则从数据集中提取出每一个子类中的数据,即数据子集,采用信号检测方法分别对数据集和数据子集进行信号检测,从而获得两个信号集,总样本的信号检测结果对应信号集1,子样本各自做信号检测后整合的结果对应信号集2;
5)性能评估:以标准库作为检验的标准,设计评价指标,对两个信号集进行性能评估,分析基于决策树的多级分层方法在削弱数据遮蔽效应方面发挥的作用。
2.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法,其特征在于:所述步骤5)中还包括如下具体步骤:
501)设计基于标准库的四格表
标准库为分类决策提供了客观的依据,为了比较多级分层前后总样本和子样本在信号检测结果上的差异性,选择标准库作为检验的标准;用标准库中药品不良反应组合对信号集1和信号集2进行标注,如果该组合出现在标准库中,则标注为“1”,否则标注为“0”,将信号集1、信号集2与标准库进行比较,构成所需的四格表;
其中,a代表信号集1与信号集2检出均为阳性信号的ADR组合数;b代表信号集1检出为阳性信号,信号集2检出为阴性信号的ADR组合数;c代表信号集1检出为阴性信号,信号集2检出为阳性信号的ADR组合数;d代表信号集1和信号集2检出均为阴性信号的ADR组合数;a1、b1、c1和d1分别表示a、b、c和d中出现在标准库中的ADR组合数;a0、b0、c0和d0分别表示a、b、c和d中未出现在标准库中的ADR组合数;且a=a1+a0,b=b1+b0,c=c1+c0,d=d1+d0
故,当信号集1与信号集2均为阳性信号时,a(a1,a0);当信号集1为阳性信号,信号集2为阴型信号时,b(b1,b0);当信号集1为阴性信号,信号集2为阳性信号时,c(c1,c0);当信号集1、信号集2均为阴性信号时,d(d1,d0);
502)设计评价指标
①查全率R
用查全率R1描述总样本检测出已知信号的能力,由公式1表示:
用查全率R2描述多级分层后的子样本检测出已知信号的能力,由公式2表示:
②查准率P
用查准率P1描述总样本检测出已知信号的能力,由公式3表示:
用查准率P2描述多级分层后的子样本检测出已知信号的能力,由公式4表示:
③F指标
总样本和多级分层后的子样本的F指标分别由公式5、公式6表示:
当F指标达到最大值时,查全率和查准率保持相对平衡,数据遮蔽效应消除性能最好;若F1≥F2,则无需对总样本进行分层检测;否则为需要对总样本进行分层检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010841630.7/1.html,转载请声明来源钻瓜专利网。