[发明专利]一种基于自蒸馏的命名实体识别与纠错方法在审

申请号：	202010897066.0	申请日：	2020-08-31
公开（公告）号：	CN112101032A	公开（公告）日：	2020-12-18
发明（设计）人：	陈开冉;黎展;张天翔	申请（专利权）人：	广州探迹科技有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/216
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	颜希文;郝传鑫
地址：	511400 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于蒸馏命名实体识别纠错方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自蒸馏的命名实体识别与纠错方法，包括：针对命名实体识别模型进行训练；命名实体识别模型包括第一层模型、第二层模型和第三层模型；第一层模型用于根据无标注数据进行训练，以及将第一层模型中的概率分布压缩到第二层模型中；第二层模型用于进行命名实体提取；第三层模型用于对提取的命名实体进行错误检测及进行错误修正；获取待提取命名实体的文本并输入模型；通过命名实体识别模型进行命名实体的提取。采用该种方法，可以解决进行文本命名实体提取时，文本中出现语法错误或标点符号错误时会导致前后文特征过强，提取出错误命名实体的问题。同时，可以在提取到错误命名实体时进行自动纠正，从而达到了更精准提取的效果。

技术领域

本发明涉及文本处理领域，尤其涉及一种基于自蒸馏的命名实体识别与纠错方法、装置、存储介质及计算设备。

背景技术

基于文本数据的命名实体识别是广泛用于人机对话系统的一种自然语言处理技术，经过对文本数据的清洗处理，向量映射，语义理解匹配后，能够自动提取出文本中符合预设属性的词，从而达到专项识别某类型特殊词的目的，该方法多用于识别人名，地名，时间。

现有技术存在的缺点：

1)在一般命名实体识别方法中，若文本命名实体中出现语法错误或标点符号错误时，该方法会因前后文特征过强，提取出错误词汇，同时无法解决此类异常错误。

2)在一般该类型技术中，没有大量外部知识及语法逻辑支撑，难以达到精准提取特殊字词的效果。

发明内容

为了解决上述技术问题中的至少一个，本发明提供了一种基于自蒸馏的命名实体识别与纠错方法、装置、存储介质及计算设备，通过针对三层命名实体识别模型进行训练，可以达到精确进行文本命名实体提取的目的。本发明的目的通过以下方案实现：

一种基于自蒸馏的命名实体识别与纠错方法，包括：

针对命名实体识别模型进行训练；所述命名实体识别模型包括第一层模型、第二层模型和第三层模型；所述第一层模型用于根据无标注数据进行训练，以及将所述第一层模型中的概率分布压缩到所述第二层模型中；所述第二层模型用于进行命名实体提取；所述第三层模型用于对提取的所述命名实体进行错误检测，以及，在检测到错误后进行错误修正；

获取待提取命名实体的文本并输入所述命名实体识别模型；

通过所述命名实体识别模型进行所述命名实体的提取。

进一步地，所述第一层模型为bert-large模型；

针对所述bert-large模型进行训练，包括：

针对所述bert-large模型进行无标注数据训练，和，针对所述bert-large模型进行垂直领域数据微调训练。

进一步地，所述第二层模型为Transformer Encoder模型；

针对所述Transformer Encoder模型进行训练，包括：

通过所述文本中每个字词的上下文特征进行所述Transformer Encoder模型的训练；其中，预先通过分支自蒸馏的方式将所述第一层模型的概率分布压缩到所述Transformer Encoder模型中，以及，使用所述第一层模型的全连接层输出作为预训练词向量。

进一步地，所述第三层模型为CBOW模型；

针对所述CBOW模型进行训练，包括：

通过规整的文本数据进行垂直领域的CBOW模型的训练。

进一步地，对提取的所述命名实体进行错误检测，包括：