[发明专利]用于提供用于处理医学数据的聚合算法的方法和用于处理医学数据的方法在审
申请号: | 202010568244.5 | 申请日: | 2020-06-19 |
公开(公告)号: | CN112116999A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | C·施米德;M·舍恩宾格;M·韦尔斯 | 申请(专利权)人: | 西门子医疗有限公司 |
主分类号: | G16H50/20 | 分类号: | G16H50/20;G16H30/20;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 赵林琳 |
地址: | 德国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 提供 处理 医学 数据 聚合 算法 方法 | ||
本公开的实施例涉及用于提供用于处理医学数据的聚合算法的方法以及用于处理医学数据的方法。多个本地算法通过机器学习来训练,其中每个相应本地算法的训练使用相应本地训练数据在相应本地系统上执行,其中涉及相应本地算法的相应算法数据集被传送到聚合系统,该聚合系统基于算法数据集生成聚合算法。
技术领域
本发明涉及一种用于提供用于处理医学数据特别是医学图像数据的聚合算法的方法以及一种用于处理医学数据的方法。此外,本发明涉及系统、计算机程序和计算机可读存储介质。
背景技术
近年来,在人工智能和机器学习领域的兴趣和研究一直在增长。诸如深度学习之类的技术实现了在用于对图像数据进行分割和分类的全自动算法中的重大质量飞跃,从而允许这样的算法被使用在医学数据处理中,尤其是在医学图像数据的处理中。机器学习中最常用的方法是监督学习,其需要训练数据来对算法进行训练。通常,有必要至少手动标识训练数据中需要被检测和/或限定的特征,以及可选地还标识被算法评估来减少数据的复杂性并使模式对于学习过程更可见的某些特征。在深度学习中,算法本身以增量的方式从带注释的数据中学习高级别特征。因此,算法的性能在很大程度上取决于数据量和被用来对算法进行训练的注释的质量。这是特别正确的,因为需要考虑大量的变量,例如患者之间的解剖学和/或病理学差异和/或所使用的成像规程或其他采集协议的差异。
因此,对于医学设备的制造方和这样的经训练算法的其他提供方而言,组装足够大且充分注释的训练数据集是重大的挑战。例如,使用超过10000或超过100000个训练数据集可能是必要的。在医学成像中,还存在主要的私密问题,因为医学图像数据和其他医学数据都涉及高度私密的信息。因此,需要实现广泛的匿名化协议,并且获得对例如可能由医院提供的大型数据集的访问可能是一个复杂的过程。一旦采集了足够大的数据集,通常还需要由内部专家或合约方对该广泛的数据集进行手动注释。这可能也需要采集相关的知识。
此外,数据处理可以包括跨国界的数据传送,并且因此包括涉及数据保护的附加要求,尤其是考虑到大量的特定于国家的法规。包括用于数据处理的第三方通常需要原始患者的同意。这些附加的限制限制了外包和数据共享的可能性。
上面提及的问题的总体结果往往会导致使用机器学习的产品的更新和反馈周期很慢。
从文档US 2014/0219548 A1中已知在最终用户系统上使用本地机器学习。尽管此方法允许取决于用户反馈立即改进算法,但该算法只能从本地训练中获益。由于本地可用的训练数据池通常相当小,因此只可能对算法进行缓慢的改进。本地算法也不能从在其他位置中执行的任何训练中获益。为了处理医学数据,还期望在算法被发布和使用之前对经训练的算法执行验证,以确保算法不存在意外行为。这通常由算法的提供方来执行,例如由所使用的医学设备的制造方来执行。不存在一种简单方法将这样的验证集成在所提及的文档中讨论的用于本地学习的方法中。
在文档US 2018/0018590 A1中讨论了使用本地数据来训练算法的不同方法。该文档建议在本地系统上生成代理数据,该代理数据具有与实际数据相似的数据分布。然后,从多个系统聚合该代理数据并将其用来训练算法。虽然与直接重新分布本地私密数据相比,该方法提高了私密性,但是从例如本地医院传输有关某些私密数据的分布的信息可能已经是有问题的,尤其是在一些数据涉及罕见状况的情况下。因此,将需要附加步骤来确保本文档中提出的方法不会意外共享与私密相关的数据。由于在机器学习中使用的算法,例如神经网络,可以是高度非线性的系统,所以创建与真实数据分布相似的人工数据分布也可能是有问题的。因此,看起来相似的分布可能导致所得的经训练的算法存在巨大差异。尽管该文档建议通过使用真实数据和代理数据来使用本地训练并比较经训练的算法来检查这一事实,但是不能保证在多个代理数据集被合并和被用于训练时这种行为相似性仍然成立。
发明内容
本发明的目的是提供一种用于提供用于处理医学数据的聚合算法的方法,并且因此还提供一种用于处理医学数据的方法,该方法允许使用本地训练数据,同时确保有关此数据的私密性被遵守。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西门子医疗有限公司,未经西门子医疗有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010568244.5/2.html,转载请声明来源钻瓜专利网。