[发明专利]风险级别确定模型训练方法及装置、电子设备、存储介质在审
申请号: | 201911350983.0 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111048166A | 公开(公告)日: | 2020-04-21 |
发明(设计)人: | 胥世承;郝原;朱彤;艾杰;彭滔 | 申请(专利权)人: | 天津新开心生活科技有限公司;天津开心生活科技有限公司 |
主分类号: | G16H10/20 | 分类号: | G16H10/20;G16H20/10;G16H50/70;G16H70/40;G06K9/62 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 300467 天津市滨海新区生态城国家*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 风险 级别 确定 模型 训练 方法 装置 电子设备 存储 介质 | ||
本发明提供了一种风险级别确定模型训练方法及装置、电子设备、存储介质,涉及计算机技术领域。该风险级别确定模型训练方法包括:提取目标临床试验对应的样本特征数据;获取目标临床试验对应的标签数据;其中标签数据包括目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;通过预设的数据划分方法对样本特征数据以及标签数据进行拆分以构建训练集以及测试集;根据训练集以及测试集对预构建的风险级别确定模型进行训练以通过训练好的风险级别确定模型确定目标临床试验对应的风险级别。本发明实施例的技术方案可以确定临床试验项目的风险级别,提高临床试验项目的成功率。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种风险级别确定模型训练方法、风险级别确定模型训练装置、电子设备以及计算机可读存储介质。
背景技术
每个临床试验消耗的资源较多,因此在临床试验中对于每个项目会有相关的项目核查,项目核查会检查出项目相关的问题,如果问题数量过多,或者有影响较为严重的问题,会导致临床试验的周期加长,甚至会导致临床试验失败的风险。因此对临床试验进行风险评估显得尤为重要。
目前,相关方案中,通过人工的方式对临床试验进行风险评估,但是在临床试验的数据量较大、较复杂时,该方案不能够保证风险评估的准确性以及效率。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种风险级别确定模型训练方法、风险级别确定模型训练装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服相关方案中对临床试验风险级别确定的准确率以及效率较低的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种风险级别确定模型训练方法,包括:提取目标临床试验对应的样本特征数据;其中所述样本特征数据包括所述目标临床试验各阶段对应的特征数据;获取所述目标临床试验对应的标签数据;其中所述标签数据包括所述目标临床试验中出现的轻度问题数据、中度问题数据以及重度问题数据分别对应的问题数量;通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集;根据所述训练集以及所述测试集对预构建的风险级别确定模型进行训练以通过训练好的所述风险级别确定模型确定所述目标临床试验对应的风险级别
在本发明的一些示例实施例中,基于前述方案,提取目标临床试验对应的样本特征数据,包括:提取所述目标临床试验对应的原始特征数据;对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。
在本发明的一些示例实施例中,基于前述方案,对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据,包括:根据预设先验数据以及统计分析数据对所述原始特征数据进行过滤,以确定影响级别大于或者等于预设阈值的所述原始特征数据作为样本特征数据。
在本发明的一些示例实施例中,基于前述方案,所述预设数据划分方法包括折叠交叉验证方法;所述通过预设的数据划分方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集包括:根据折叠交叉验证方法对所述样本特征数据以及所述标签数据进行拆分以构建训练集以及测试集。
在本发明的一些示例实施例中,基于前述方案,所述原始特征数据包括项目难度特征数据;所述提取所述目标临床试验对应的原始特征数据,还包括:根据注册类别数据、试验类型数据、实验分期数据以及加分项数据计算所述目标临床试验对应的项目难度特征数据。
在本发明的一些示例实施例中,基于前述方案,在提取目标临床试验对应的样本特征数据之后,所述方法还包括:通过词频-逆文档频率方法将所述样本特征数据中的文本特征进行编码处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津新开心生活科技有限公司;天津开心生活科技有限公司,未经天津新开心生活科技有限公司;天津开心生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350983.0/2.html,转载请声明来源钻瓜专利网。