[发明专利]结合注意力机制和多任务协同训练的命名实体识别方法有效
申请号: | 201810210591.3 | 申请日: | 2018-03-14 |
公开(公告)号: | CN108628823B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 卓汉逵;付豪 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 注意力 机制 任务 协同 训练 命名 实体 识别 方法 | ||
本发明提供一种结合注意力机制和多任务协同训练的命名实体识别方法,该方法包括如下步骤:(1)对训练数据进行预处理操作,通过字符层级的映射获得句子的字符向量表征;(2)将步骤(1)中获得的字符向量表征输入一个双向LSTM网络,获得每个词语的字符向量表征;(3)通过词语层级的映射,获得每一个句子的词向量表征;(4)通过注意力机制对步骤(3)中获得的词向量表征和步骤(1)中获得的字符向量表征进行拼接,传入双向LSTM神经网络,获得句子的语义特征向量;(5)针对步骤(4)中得到的语义特征向量,利用条件随机场对每个单词进行实体标注,解码出实体标签。
技术领域
本发明涉及神经网络的命名实体识别方法领域,更具体地,涉及一种结合注意力机制和多任务协同训练的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)作为自然语言处理(NLP)领域中一些复杂任务(例如信息提取、问答系统、机器翻译)的基础工作,就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型。作为NLP领域的研究热点,命名实体识别是一个充满挑战性的工作。一方面,人们通常很难获取到大量的有标注数据用于模型训练;另一方面,实体的特征往往是千变万化的,因此,想要获得一个泛化能力较强的模型,往往需要大量的特征工程。
基于规则和词典的方法是命名实体识别中最早使用的方法,这种方法严重依赖于人工规则和词典,其缺点是显而易见的:模型构建周期长、移植性差、难以涵盖所有的语言现象。因此基于传统机器学习方法的模型得以广泛推广,主要包括隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy,ME)、支持向量机(SupportVectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。
近年来,随着深度学习在人工智能领域的发展,神经网络结构被广泛运用到命名实体识别的工作中,且取得了不错的效果。尤其是2015年左右,涌现出一系列使用RNN结构并结合传统机器学习中条件随机场(CRF)的方法,由于这类方法继承了深度学习方法的优势,无需特征工程,使用词向量以及字符向量就可以达到很好的效果,成为目前基于深度学习的NER方法中的主流。
现有的基于RNN+CRF模式的方法,归纳起来主要包含Embedding层(主要有词向量,字符向量以及一些额外特征),双向RNN层(通常使用LSTM或者GRU),tanh隐层以及最后的CRF层。其中绝大多数方法通过LSTM或者CNN处理字符向量,获得词语在字符层级上的向量表达,然后直接拼接词向量和字符向量获得词语的向量表达。这些方法虽然考虑到了词语在字符层面上的形态特征,但是拼接方法比较简单粗暴,难以根据训练数据灵活调整字符特征和词语特征之间的权重;另外,没有考虑到具体的训练数据分布对于字符向量权重的影响,仅仅只通过实体识别任务的反向传播来调整字符向量权重,难以学习到字符间的分布规律。
发明内容
本发明提供一种提升识别准确率的结合注意力机制和多任务协同训练的命名实体识别方法。
为了达到上述技术效果,本发明的技术方案如下:
一种结合注意力机制和多任务协同训练的命名实体识别方法,包括以下步骤:
(1)、对训练数据进行预处理操作,通过字符层级的映射获得句子的字符向量表征;
(2)、将步骤(1)中获得的字符向量表征输入一个双向LSTM网络,获得每个词语的字符向量表征;
(3)、通过词语层级的映射,获得每一个句子的词向量表征;
(4)、通过注意力机制对步骤(3)中获得的词向量表征和步骤1中获得的字符向量表征进行拼接,传入双向LSTM神经网络,获得句子的语义特征向量;
(5)、针对步骤(4)中得到的语义特征向量,利用条件随机场对每个单词进行实体标注,解码出实体标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810210591.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:无语义文本的识别方法及装置
- 下一篇:一种基于中文电子病历的实体识别方法