[发明专利]一种基于对抗多任务学习的医疗咨询命名实体识别方法有效
申请号: | 202010031774.6 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111222339B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 文贵华;陈河宏;李杨辉 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 任务 学习 医疗 咨询 命名 实体 识别 方法 | ||
1.一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,包括以下步骤:
步骤1、采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;
步骤2、构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;
步骤3、将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;
步骤4、对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;
步骤5、输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别;
所述对抗多任务训练的训练阶段包括以下步骤:
步骤41、随机选取一个批次的相近的命名实体数据,训练源领域标注模型,更新源领域标注模型的参数,源领域标注模型的损失函数如下:
其中θshare表示共享编码层的参数,θs表示源领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,ys表示输入的电子病历数据的实体标签,xs表示输入的电子病历数据的句子,p(.)表示概率;
步骤42、随机选取一个批次的有标注医疗咨询数据,训练目标领域标注模型,更新目标领域标注模型的参数,目标领域标注模型的损失函数是:
其中θshare表示共享编码层的参数,θt表示目标领域标注模型的字向量层、两层卷积神经网络、双向长短时记忆网络、条件随机场的参数,yt表示输入的医疗咨询数据的实体标签,xt表示输入的医疗咨询数据的句子;
步骤43、分别用当前批次的电子病历数据和当前批次的医疗咨询数据,先后训练领域鉴别器和更新领域鉴别器的参数;领域鉴别器更新Softmax层的参数θd,以最小化其对x的领域类别所预测的概率分布和真实概率分布的交叉熵损失,公式表示为:
其中,x表示当前输入的句子,s、t都是类别,s表示x是源领域的句子,t表示x是目标领域的句子,I(x)用于判断输入模型的x是来自源领域还是目标领域,公式表示为:
其中,Ds表示源领域标注数据集,Dt表示目标领域标注数据集;对共享编码层的参数θshare的更新,以最小化如下公式的对抗损失为目标
步骤44、采用命名实体识别模型的总体损失函数对命名实体识别模型进行训练,得到训练好的命名实体识别模型;命名实体识别模型的总体损失函数是源领域标注模型的损失函数、目标领域标注模型的损失函数和领域鉴别器的损失函数的组合,公式表示为:
其中,θ表示模型所有的参数,D表示训练的数据集,λ表示控制对抗损失权重的超参数。
2.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤1中,采集的医疗咨询数据包括病人或病人家属向医生提出的问题和医生对问题的回答,采取的预处理包括清洗噪音数据、去除无用符号、分词,标注的实体包括身体部位、症状描述、独立症状3种。
3.根据权利要求1所述的一种基于对抗多任务学习的医疗咨询命名实体识别方法,其特征在于,步骤2包括以下步骤:
步骤21、构建双向语言模型并利用无标注的医疗咨询数据预训练双向语言模型;
步骤22、构建掩码语言模型并利用无标注的医疗咨询数据预训练掩码语言模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010031774.6/1.html,转载请声明来源钻瓜专利网。