[发明专利]一种基于深度学习的医疗影像问答方法及系统在审
申请号: | 202010719316.1 | 申请日: | 2020-07-23 |
公开(公告)号: | CN111984772A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李冠彬;陈冠锜 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/583;G06K9/62;G16H50/70 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 医疗 影像 问答 方法 系统 | ||
1.一种基于深度学习的医疗影像问答方法,其特征在于,包括:
S1、采用多任务预训练方法,利用非医疗影像问答数据集的图像以及医疗影像问答数据集的问题训练视觉编码器;
S2、导入预先训练好的模型权重,从医疗影像数据集中获取医疗影像以及对应的问题;
S3、通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征;通过文本编码器提取文本特征;
S4、通过跨模态自注意力模块对所述视觉特征、所述空间特征、所述文本特征进行融合,得到多模态特征;
S5、将所述多模态特征输入到所述多层感知机中推断出估计的答案;
S6、根据所述估计的答案和实际的答案、估计的医疗影像类型和实际的医疗影像类型计算总交叉熵损失;
S7、根据所述交叉熵损失更新所述模型参数;
S8、采用不同的医疗影像和不同的问题多次迭代式地进行S2-S7步骤,直至符合停止条件。
2.根据权利要求1所述的基于深度学习的医疗影像问答方法,其特征在于,在所述通过所述视觉编码器提取所述医疗影像的视觉特征,并根据视觉特征图的尺寸,定义一组空间特征之前,还包括,对所述医疗影像和问答数据分别进行预处理,具体为:
将所述医疗影像随机裁剪成预设地固定大小;
将所述问题的单词数目缩减或增加到预设的数目。
3.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述通过文本编码器提取所述问题的文本特征,包括:
通过词嵌入模型对所述问题中的单词映射得到词向量;
根据所述词向量,通过长短期记忆网络建模序列信息,得到所述问题的文本特征。
4.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,
所述跨模态自注意力模块能通过学习和利用长期的上下文相关性来融合所述视觉特征、空间特征和文本特征。
5.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括,N个子视觉编码器和M个医疗影像分类器,其中,N大于1,M大于等于1。
6.根据权利要求1或2所述的基于深度学习的医疗影像问答方法,其特征在于,当所述视觉编码器包括N个子视觉编码器和1个医疗影像分类器时,所述通过所述视觉编码器提取所述医疗影像的视觉特征,具体为:
采用所述医疗影像分类器的输出对所有所述子视觉编码器提取的特征进行加权组合,得到所述视觉特征。
7.根据权利要求6所述的基于深度学习的医疗影像问答方法,其特征在于,所述视觉编码器包括三个子视觉编码器和一个医疗影像分类器,所述三个子视觉编码器分别为第一子视觉编码器、第二子视觉编码器、和第三子视觉编码器;其中,所述第一子视觉编码器的结构、第二子视觉编码器结构、第三子视觉编码器的结构相同;所述第一子视觉编码器的训练集、第二子视觉编码器训练集、第三子视觉编码器的训练集不同;所述分类器的训练集包括所述第一子视觉编码器的训练集、第二子视觉编码器训练集和第三子视觉编码器的训练集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010719316.1/1.html,转载请声明来源钻瓜专利网。