[发明专利]一种正则化领域知识辅助的命名实体识别方法在审

申请号：	202310267754.2	申请日：	2023-03-20
公开（公告）号：	CN116306653A	公开（公告）日：	2023-06-23
发明（设计）人：	冯建周;徐甘霖	申请（专利权）人：	燕山大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F18/214;G06F18/40
代理公司：	石家庄众志华清知识产权事务所(特殊普通合伙) 13123	代理人：	张建
地址：	066004 河北***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种正则领域知识辅助命名实体识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种正则化领域知识辅助的命名实体识别方法，属于自然语言处理领域。该方法主要包括知识标注、知识提取和知识传递三个步骤。1)知识标注：使用人工注释的正则表达式规则生成句子中实体提及的伪标签；2)知识提取；用带有伪标签的句子训练神经网络模型，将正则化领域知识嵌入到神经网络模型中；3)知识传递：使用知识蒸馏方式将神经网络中存储的领域知识传递到实体识别模型中，增强命名实体识别的准确性。本发明提供的正则化领域知识领域的命名实体识别方法，相比其他外部知识辅助命名实体方法，可以基于已有的训练数据获得正则化领域知识，有效提升现有的多种类型命名实体识别模型的性能。

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种正则化领域知识辅助的命名实体识别方法。

技术背景

命名实体识别旨在识别句子中的实体提及并归类到预定义的类，例如人物、组织、地点等。例如，对于给定而句子“某某是一个篮球运动员，出生于某地”，命名实体识别的任务是识别出“某某”是一个人物类型实体，“某地”是一个地点类型实体。命名实体识别是信息抽取、问答系统、句法分析、机器翻译等下游任务的基础，在自然语言处理技术走向实用化的过程中占有重要地位。

随着进一步研究，越来越多的研究主要聚焦在特定领域任务。然而，传统的监督学习方法在这项任务中仍有很大的提升空间。这些受监督学习方法只关注训练语料库本身，这限制了模型探索外部真实世界场景。先前的工作学习如何利用外部数据，如未标记和有噪声的数据，以推动命名实体识别任务，这不可避免地引入了不相关的信息。此外，一些方法将知识图谱中的三元组视为外部知识并将其引入到模型中，以提高模型的性能，但它们有一定的局限性。一方面，大多数的现有模型都使用一般知识图谱，但它们缺乏领域知识，因此不适合于特定领域的任务。另一方面，领域知识图谱尚未普及，因此无法支持所有领域特定任务。对于特定领域的命名实体识别任务，构建领域知识图谱也是耗时且计算昂贵的。

发明内容

本发明的目的在于提供一种正则化领域知识辅助的命名实体识别方法，从而开发命名实体识别模型的性能。本发明基于已有的训练数据，利用正则表达式规则挖掘其中的正则化的领域知识，使其推动命名实体识别任务。

为实现上述目的，采用了以下技术方案：

本发明提供了一种涉及一种正则化领域知识辅助的命名实体识别方法，包括：

S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及，为句子中每个字符生成伪标签；

S2、用上述带有伪标签的训练数据训练预训练模型(教师模型)，将正则化的领域知识嵌入到教师模型中；

S3、使用知识蒸馏方式，训练命名实体识别模型(学生模型)的同时，将教师模型中的领域知识传递到命名实体识别模型(学生模型)中，实现了实体识别性能的增强。

本发明的进一步改进在于，基于所述的正则表达式的知识标注方法工作步骤如下：

S1.1、基于已有的训练数据，人工注释若干正则表达式规则；

S1.2、将输入句子与上述的若干正则表达式逐一匹配，生成对应字符的伪标签并识别出相应的实体，使用上述的正则表达式匹配后抽取的实体；

S1.3、对抽取出的实体采用BIO方法进行标注，其中,“B”(begin)代表实体的开头，“I”(inside)代表实体的中间或结尾，“O”(other)表该词为非实体词。

本发明的进一步改进在于，所述教师模型为EBRT模型，知识提取方法的工作步骤如下：