[发明专利]一种基于深度学习的医疗影像问答方法及系统在审
申请号: | 202010719316.1 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111984772A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李冠彬;陈冠锜 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/583;G06K9/62;G16H50/70 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 医疗 影像 问答 方法 系统 | ||
本发明公开一种基于深度学习的医疗影像问答方法及系统,所述方法包括:采用多任务预训练方法,利用非医疗影像问答数据训练视觉编码器;导入预先训练好的模型权重,获取医疗影像以及对应的问题;通过视觉编码器提取医疗影像的视觉特征,并根据视觉特征图的尺寸,定义空间特征;通过文本编码器提取文本特征;通过跨模态自注意力模块对视觉、空间和文本特征进行融合,得到多模态特征;将多模态特征输入多层感知机中推断出估计的答案;根据估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算损失,更新模型参数;采用不同的医疗影像和不同的问题多次迭代式地进行上述过程直至符合停止条件。本发明能够提升医疗影像问答的准确率。
技术领域
本发明涉及计算机视觉和自然语言处理技术领域,尤其涉及一种基于深度学习的医疗影像问答方法及系统。
背景技术
医疗影像问答是指给定一张医疗影像以及与其相关的问题,需要根据医疗影像的内容来回答问题。近几年,这项任务受到越来越多的关注。
当前医疗影像问答系统一般参照视觉问答系统进行设计,许多医疗影像问答系统采用卷积神经网络来提取图像的特征,并利用长短期记忆网络或者基于Transformer的模型来提取问题的特征,然后利用已有的跨模态融合策略来对提取得到的两个模态的特征进行结合。例如:J.J.Lau等人在2018年的研究工作“A dataset of clinically generatedvisual questions and answers about radiology images”(Scientific data,pages 1-10,2018)尝试使用了MCB和SAN两种为自然图像的视觉问答系统设计的跨模态特征融合策略。与基于自然图像的视觉问答系统相比,医疗影像问答系统需要理解医疗术语并关注医疗影像中相应的视觉内容。然而,现有的医疗影像问答系统并没有意识到这些问题的严重性,而是直接借鉴了基于自然图像的视觉问答系统的技术,这导致了系统的预测准确性的瓶颈。
除此之外,医疗影像问答任务还受到数据量少的局限,许多研究工作都需要借助迁移学习来获得有效的图像特征表示。X.Yan等人在2019年的研究工作“Zhejianguniversity at imageclef 2019visual question answering in the medical domain”(Working Notes of CLEF,2019)使用在ImageNet数据集上预训练得到的VGGNet来编码医疗影像。I.Allaouzi等人在2019年的研究工作“An encoder-decoder model for visualquestion answering in the medical domain”(Working Notes of CLEF,2019)利用一个大型的胸部X射线影像数据集CheXpert来预训练DenseNet-121作为视觉特征编码器。此外,B.D.Nguyen等人在2019年的研究工作“Overcoming data limitation in medical visualquestion answering”(International Conference on Medical Image Computing andComputer-AssistedIntervention,pages 522-530,2019)利用大量没有标注的医疗影像通过重建任务来预训练其无监督去噪自动编码器。然而,现有的工作没有考虑到用于跨模态融合的特征的兼容性和适用性。
发明内容
为克服上述现有技术存在的不足,本发明的目的在于提供一种基于深度学习的医疗影像问答方法及系统,通过有效地利用额外的数据来解决医疗影像问答数据量少的问题,并高效地融合视觉和文本两个不同模态的特征,从而提升医疗影像问答的准确率。
第一方面,本发明实施例提供一种基于深度学习的医疗影像问答方法,包括:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010719316.1/2.html,转载请声明来源钻瓜专利网。