[发明专利]优化方法、训练方法、模型、处理装置及存储介质在审
申请号: | 202011627961.7 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112700880A | 公开(公告)日: | 2021-04-23 |
发明(设计)人: | 郑永升;周世正;梁平 | 申请(专利权)人: | 杭州依图医疗技术有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/194;G06K9/62 |
代理公司: | 北京金信知识产权代理有限公司 11225 | 代理人: | 喻嵘 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 优化 方法 训练 模型 处理 装置 存储 介质 | ||
本公开涉及用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质,方法包括:将第一标注医学数据和第二标注医学数据分别输入算法分类模型,分别得到第一推论结果和第二推论结果;基于所述第一推论结果和/或第二推论结果,得到优化后的训练模型数据集或者重新构建用于训练模型的训练数据集;其中:所述第一标注医学数据的第一标注结果从标准医学信息表获得;所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取,且第二标注结果与第一标注结果存在区别。通过本公开的各实施例能够通过迭代训练算法模型来优化医学数据的标注准确度,解决标注不一致的问题。
技术领域
本公开涉及医学数据智能处理技术领域,具体涉及一种用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质。
背景技术
现有技术中需要基于标注的医学数据进行相应的模型训练,从而进行各种数据处理和分析。在疑难的标注场景中,由于标注人员的水平不一或粗心,可能出现一些标注错误,虽然基于标注人员的水平整体较高的假设,标注错误的占比理论上相对较少,但仍存在一些标注不一致的情况。
发明内容
本公开意图提供一种用于优化训练模型数据集的方法、用于训练模型的方法、模型、处理装置及计算机可读存储介质,能够通过迭代训练算法模型来优化医学数据的标注准确度,解决标注不一致的问题。
根据本公开的方案之一,提供一种用于优化训练模型数据集的方法,包括:
将第一标注医学数据和第二标注医学数据分别输入算法分类模型,分别得到第一推论结果和第二推论结果;
基于所述第一推论结果和/或第二推论结果,得到优化后的训练模型数据集;
其中:
所述第一标注医学数据的第一标注结果从标准医学信息表获得;
所述第二标注医学数据的第二标注结果基于原文与标准医学信息表中标准词的文本相似度选取,且第二标注结果与第一标注结果存在区别。
在一些实施例中,其中,基于原文与标准医学信息表中标准词的文本相似度选取,包括:
基于原文和标准词所包含交集和并集的字数确定文本相似度。
在一些实施例中,其中,所述将第一标注医学数据和第二标注医学数据分别输入算法分类模型,分别得到第一推论结果和第二推论结果,包括:基于所述算法分类模型,通过分类算法得到量化第一推论结果的第一infer分数值,以及得到量化第二推论结果的第二infer分数值;
其中:
基于所述第一推论结果,得到优化后的训练模型数据集,包括:
在所述第一infer分数值小于最小阈值的情况下,舍弃该第一infer分数值对应的第一标注医学数据;
基于所述舍弃,得到优化后的训练模型数据集;
基于所述第二推论结果,得到优化后的训练模型数据集,包括:
在所述第二infer分数值大于最大阈值的情况下,将该第二infer分数值对应的第二标注医学数据作为正例;
基于该正例,得到优化后的训练模型数据集。
根据本公开的方案之一,提供一种用于训练模型的方法,包括:
将第一标注医学数据和第二标注医学数据分别输入算法分类模型,分别得到第一推论结果和第二推论结果;
基于所述第一推论结果和/或第二推论结果,重新构建用于训练模型的训练数据集;
其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州依图医疗技术有限公司,未经杭州依图医疗技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011627961.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种软件许可控制方法、装置、计算机设备和存储介质
- 下一篇:光学成像镜头