[发明专利]一种基于对抗训练和BiLSTM-CRF的医学领域命名实体识别方法在审
申请号: | 202211305761.9 | 申请日: | 2022-10-24 |
公开(公告)号: | CN115659976A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 张丽;马春澎 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/0442;G06N3/045;G06N3/094 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 林聪源 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 训练 bilstm crf 医学 领域 命名 实体 识别 方法 | ||
本发明公开了一种基于对抗训练和BiLSTM‑CRF的医学领域命名实体识别方法,包括:将医疗文本数据集切分成文字和词组作为训练样本,并通过Word2Vec方法将训练样本转化为词向量矩阵;计算词向量矩阵中每个词向量的梯度,并使用FGM算法对词向量梯度进行标准化处理得到扰动值,将扰动值加入到原有词向量中;将原有词向量与添加了扰动值后的词向量同时送往BiLSTM模型,得到医疗领域字词信息间的关联性特征;将提取到的关联性特征输入到条件随机场CRF中,对样本进行预测,得到最终的预测值。本发明通过加入对抗训练的方法,有效防止训练集干扰噪声带来的影响,经实验验证,有效提高了模型的识别准确率与鲁棒性。
技术领域
本发明涉及命名实体识别技术领域,具体涉及一种基于对抗训练和BiLSTM-CRF的医学领域命名实体识别方法。
背景技术
命名实体识别是自然语言处理中一项重要的技术,是关系抽取和问答系统的前置任务。其主要目的是从非结构化的文本中识别出具有特定意义的实体类型,包括人名、地名、疾病名称、各种专有名词等等。传统的命名实体识别方法需要消耗大量的人力资源对特定领域进行特征提取,并利用概率图等模型对其进行实体识别,随着深度学习的发展,各领域中基于深度学习的实体识别方法也得到了大量的探索与实践,深度学习模型的优势在于减少了大量人工选择的成本,并且很大程度上提高了识别准确率。在医学领域的命名实体识别方法可以识别出非结构化文本中的疾病名称、治疗方案、医疗信息等实体,可以为后序信息提取、医疗问答系统、构建医疗知识图谱等重要任务打下坚实的基础。
目前,医疗领域命名实体识别方法主要有:基于概率图模型和基于深度学习模型,基于概率图模型,如隐马尔科夫模型(HMM)、条件随机场(CRF)等等,是在给定一组输入序列条件下另一组输出序列的条件概率分布模型,通过输入带有标签的特定领域数据,人工提取出相应的特征与设定相应的规则,从而对未标注的文本进行识别。尽管研究取得很大进展,但研究人员需要消耗大量的精力进行特征工程,而且还存在数据高维稀疏,扩展性差以及用户偏好建模难等问题。基于深度学习的方法不需要特征工程,而且能找到更深层次和更抽象的特征,目前较为流行的是BiLSTM(长短时记忆网络)模型,利用词嵌入信息,通过输入带有标签的特定领域数据到双向长短时记忆网络中,从而获取到命名标签信息;从而大大减少了人工的工作并增加模型识别准确率。
但目前在医学领域中,命名实体识别方法存在词嵌入层实体边界检测不清的问题,位于检测边界的实体样本比远离边界的实体样本更容易出现识别的错误问题,从而拉低实体边界检测准确率,进而影响模型的整体实体识别性能。
发明内容
针对现有技术中存在的不足之处,本发明提供一种基于对抗训练和BiLSTM-CRF的医学领域命名实体识别方法。
本发明公开了一种基于对抗训练和BiLSTM-CRF的医学领域命名实体识别方法,包括:
获取医学领域的医疗文本数据集;
将医疗文本数据集切分成文字和词组作为训练样本,并通过Word2Vec方法将训练样本转化为词向量矩阵;
计算词向量矩阵中每个词向量的梯度,并使用FGM对抗训练方法对词向量梯度进行标准化处理得到扰动值,将扰动值加入到原有词向量中;
将原有词向量与添加了扰动值后的词向量同时送往BiLSTM模型,BiLSTM模型通过门机制获取到词向量上下文中的信息,提取相关特征,得到医疗领域字词信息间的关联性特征;
将提取到的关联性特征输入到条件随机场CRF中,对样本进行预测,得到最终的预测值。
作为本发明的进一步改进,医学领域的医疗文本数据集包括中文医学NER公开数据集,所述训练样本包括训练集、测试集和验证集。
作为本发明的进一步改进,所述通过Word2Vec方法将训练样本转化为词向量矩阵,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211305761.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种星地一体化跨域信关站切换控制系统
- 下一篇:一种电驱动系统的装配方法