[发明专利]一种基于对抗多任务学习的医疗咨询命名实体识别方法有效
申请号: | 202010031774.6 | 申请日: | 2020-01-13 |
公开(公告)号: | CN111222339B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 文贵华;陈河宏;李杨辉 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 任务 学习 医疗 咨询 命名 实体 识别 方法 | ||
本发明公开了一种基于对抗多任务学习的医疗咨询命名实体识别方法。所述方法包括以下步骤:采集医疗咨询数据,对医疗咨询数据进行预处理,并对其中一部分数据进行实体的标注,得到有标注的医疗咨询数据;构建双向语言模型和掩码语言模型,利用无标注的医疗咨询数据,分别预训练双向语言模型和掩码语言模型;将双向语言模型和掩码语言模型的预训练特征引入到命名实体识别模型;对命名实体识别模型进行对抗多任务训练,得到训练好的命名实体识别模型;输入一段文本到训练好的命名实体识别模型的目标标注模型中,实现文本命名实体识别。本发明引入了迁移学习、对抗学习、多任务学习等技术,有效地提高了医疗咨询文本命名实体识别的效果。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于对抗多任务学习的医疗咨询命名实体识别方法。
背景技术
近年来,随着互联网技术的迅速发展和普及,越来越多的患者选择通过在线医疗网站,例如求医网、寻医问药网、家庭医生在线网等,以在线咨询的方式,向医生咨询医疗健康相关的问题,这种方法比较高效而方便的促进了医生和患者之间的医疗健康交流。但是,由于目前参与在线医疗问答服务的医生人数相对较少,很多患者的在线医疗咨询,往往不能得到及时的专业回复。与此同时,伴随着人工智能技术在自然语言处理方面的发展和成熟,越来越多的机构利用人工智能技术构建了专业的医疗知识库。利用信息抽取技术,自动从患者的在线医疗咨询文本中获取重要信息,然后从专业的医疗知识库中搜索答案,自动为患者提供专业的医疗答复,这种方法能够有效地减轻医生的工作量(侯梦薇,卫荣,陆亮,兰欣,蔡宏伟.知识图谱研究综述及其在医疗领域的应用[J].计算机研究与发展,2018,55(12):2587–2599.)。
信息抽取是从患者的在线医疗咨询文本中获取重要信息的关键技术,这种技术是指对文本中的实体、实体之间的关系以及实体的属性进行抽取。文本中的实体指的是文本中特定的命名性指称项,例如对于在线医疗咨询文本,我们关注的命名性指称项包括患者的患病部位、症状等。对实体进行抽取的任务一般称为实体抽取或者命名实体识别,命名实体识别是进行信息抽取工作的第一步,命名实体识别的效果决定了后续对实体之间的关系以及实体的属性进行抽取的效果。
传统的命名实体识别方法主要包括基于规则以及基于传统机器学习的方法。其中,基于规则的方法就是使用人工编写的规则,通过对文本进行规则匹配的方法,识别出相应的实体类型,但是这种方法需要大量的人工去编写规则,存在着较大的局限性。基于传统机器学习的方法将命名实体识别问题当作序列标注问题,该方法首先对文本定义相关人工特征,然后将这些特征输入到隐马尔可夫、最大熵或者条件随机场等模型中,最后预测得到每一个字或词相应的序列标签。基于传统机器学习的方法,其命名实体识别效果依赖于人工所定义的特征的质量,所以往往需要消耗较多人工和时间去精心设计特征,存在着一定的局限性。
近年来,深度学习技术取得了迅猛的发展,并且在许多任务的解决上展现出显著的优势和巨大的潜力,越来越多的研究人员使用深度学习方法,进行命名实体识别的工作,这些工作以很小的特征工程代价,取得了比传统机器学习方法更优异的效果。近年来,基于深度学习的半监督学习、多任务学习和迁移学习等方法,在命名实体识别任务上均取得了优异甚至是当前业界领先的效果,这些工作证明了深度学习在命名实体识别任务上的显著优势和巨大潜力。虽然深度学习能够较好的提取数据特征,但是其效果往往依赖于训练数据集的规模。如果用于有监督训练的数据集规模较小,基于深度学习的命名实体识别效果往往较差,这个问题在许多实际任务中很常见。为此,许多学者在深度学习的基础上,使用了半监督学习、迁移学习等方法来提高命名实体识别的效果。目前针对在线医疗咨询文本进行命名实体识别的研究不多,如何使用了半监督学习、迁移学习等方法改善在线医疗咨询文本命名实体识别任务的效果,是一项亟待解决的工作。
发明内容
有鉴于此,为解决上述现有技术中的问题,本发明提供了一种基于对抗多任务学习的医疗咨询命名实体识别方法,通过在命名实体识别模型中引入语言模型的预训练特征,以及利用相近的命名实体识别任务的数据进行对抗多任务训练,有效地提高了医疗咨询文本命名实体识别的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010031774.6/2.html,转载请声明来源钻瓜专利网。