[发明专利]一种命名实体识别模型的训练方法在审
申请号: | 202210428560.1 | 申请日: | 2022-04-22 |
公开(公告)号: | CN114881031A | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 黄书剑;李志成;鲍宇;张建兵;戴新宇;陈家骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/28 |
代理公司: | 苏州汇诚汇智专利代理事务所(普通合伙) 32623 | 代理人: | 莫英妍 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 模型 训练 方法 | ||
本发明公开了一种命名实体识别模型的训练方法,利用预训练好的成分句法分析器,构建出输入文本的成分分析树;基于生成规则,通过所述成分分析树形成关键句法成分候选集合;通过掩蔽不同的关键句法成分,筛选出所述关键句法成分候选集合中最重要的两个关键句法成分;分别掩蔽实体和最重要的两个关键句法成分,得到两种词嵌入并引入一种门控机制对两种词嵌入进行融合,形成每个词最终的词嵌入表示;将文本中所述每个词最终的词嵌入表示作为输入,输入条件随机场中进行训练,得到命名实体识别模型。本发明加强了最终词嵌入的表达能力;省去标注样本数据所需的人力成本;有效减轻整个句子复杂语义的影响,简化人类阅读和理解的过程,可解释性较强。
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种命名实体识别模型的训练方法。
背景技术
命名实体识别是自然语言处理领域里一项重要的基础性工作,其任务是提取出自然语言文本中具有现实意义的特定类型的文本段,即实体,并将实体分类为预先定义好的类别之一,常见的实体类型包括人名、地点、组织等。命名实体识别是许多自然语言理解任务的先导工作,它的效果影响着许多下游任务的性能。
随着深度学习的发展,采用神经网络结构,特别是预训练语言模型的命名实体识别模型已在效果上取得了巨大的提升。目前主流的方案需要大量的由人工标注过实体类别的文本数据进行训练,而在真实应用场景中处理的文本,可能存在标注数据中未包含的实体,因此模型需要具备良好的泛化能力,能够综合上下文的语义信息和词汇本身的特征信息,对于标注数据中未包含的实体,也能有较好的识别能力。
现有技术主要从以下方面对该问题尝试进行解决:
文献1:Towards Improving Neural Named Entity Recognition withGazetteers(利用实体词典改进神经命名实体识别)。
该文献基于一个外部获取的大型实体词典,通过设计的匹配规则,对大量无标注语料进行实体标注,生成含有更多实体的标记数据,扩充训练数据的样本数量和实体数量用于训练提升。
文献2:Improving Named Entity Recognition with Attentive Ensemble ofSyntactic Information(利用注意力机制集成句法信息改进命名实体识别)。
该文献提出通过将文本的语言学信息编码进模型中,弥补标注数据的不足。可用于编码的信息通常包括词性信息,句法成分和依赖关系等,将这些信息的词嵌入与原本的上下文词嵌入拼接在一起,作为每个词语的最终编码提升模型的能力。
文献3:TriggerNER:Learning with Entity Triggers as Explanations forNamed Entity Recognition(TriggerNER:将实体触发器作为命名实体识别的解释进行学习)。
该文献提出“实体触发器”的概念,即句子中一组能够帮助确定和分类实体的词语。论文基于大量人工标注的实体触发器,强化实体触发器与实体之间的语义联系,提升模型对上下文中关键词语的注意力,以帮助识别实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210428560.1/2.html,转载请声明来源钻瓜专利网。