[发明专利]辅助分析方法和装置、计算机可读存储介质、电子设备在审
申请号: | 202111664224.9 | 申请日: | 2021-12-31 |
公开(公告)号: | CN114334138A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 王伟 | 申请(专利权)人: | 天津开心生活科技有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H50/70;G06K9/62 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 301800 天津市宝坻区天*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 辅助 分析 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开是关于一种辅助分析方法和装置、计算机可读存储介质、电子设备,涉及机器学习技术领域,该方法包括:获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;通过所述目标分类器得到目标用户的分析结果。本公开提高了对罕见病的分析效率。
技术领域
本公开实施例涉及机器学习技术领域,具体而言,涉及一种辅助分析方法和装置、计算机可读存储介质以及电子设备。
背景技术
随着计算机技术的不断发展,为了评估和提高医疗质量,减少医疗差错,出现了临床预测模型。临床医生可以通过临床预测模型来深入分析病历资料,做出诊疗决策。
在医疗中,通常通过用户的阴性样本以及阳性样本来训练临床预测模型,当阴性样本与阳性样本比例悬殊时,常见的处理不平衡问题的方法分为两类:抽样以及对模型中的具体算法进行调整。抽样会导致数量较多的一方样本数据损失一些重要信息;对模型中的具体算法进行调整需要领域先验知识,并且不能泛化到不同任务,对于特定问题设计的代价矩阵只能用于该任务,在其他任务上使用时不能保证良好的性能,导致模型训练效率较低。
因此,需要提供一种新的辅助分析方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种辅助分析方法、辅助分析装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的由于阴阳性样本比例悬殊而降低模型训练效率的问题。
根据本公开的一个方面,提供一种辅助分析方法,包括:
获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集;
对所述样本集中的用户数据进行预处理,得到特征数据,对所述特征数据进行筛选,得到目标特征字段;
获取所述样本集中的训练集,利用所述训练集中与所述目标特征字段对应的目标特征数据对预设分类器进行训练,得到目标分类器;
通过所述目标分类器得到目标用户的分析结果。
在本公开的一种示例性实施例中,获取阳性样本以及阴性样本,对所述阴性样本数据进行补充,得到样本集,包括:
获取并将病历数据库中诊断结果为确诊目标疾病的用户数据作为阳性样本;
获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本;
在确定所述阴性样本的数量少于预设样本数量时,获取诊断结果为确诊第二疾病的用户数据;
通过所述阳性样本、所述阴性样本以及所述诊断结果为确诊第二疾病的用户数据,得到样本集。
在本公开的一种示例性实施例中,获取并将所述病历数据库中诊断结果为疑似目标疾病的用户数据作为阴性样本数据,包括:
获取所述病历数据库中包括的诊断结果为疑似目标疾病的第一用户;
获取所述第一用户的家系成员,在确定所述第一用户的家系成员未确诊目标疾病时,将所述第一用户的用户数据作为阴性样本数据。
在本公开的一种示例性实施例中,对所述样本集中的用户数据进行预处理,得到特征数据,包括:
获取所述样本集中包括的用户数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津开心生活科技有限公司,未经天津开心生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111664224.9/2.html,转载请声明来源钻瓜专利网。