[发明专利]基于ELETRIC-BERT的实体抽取方法在审

申请号：	202111239034.2	申请日：	2021-10-25
公开（公告）号：	CN113962214A	公开（公告）日：	2022-01-21
发明（设计）人：	宋爱波;周宇;孙季斌	申请（专利权）人：	东南大学
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/295;G06F16/33;G06N3/04;G06N3/08
代理公司：	南京众联专利代理有限公司 32206	代理人：	叶涓涓
地址：	210000 江苏省南京市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 eletric bert 实体抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于ELETRIC‑BERT的实体抽取方法，包括：通过预训练得到领域预训练模型ELETRIC‑BERT；将领域预训练模型ELETRIC‑BERT与实体抽取基本模型进行整合，得到基于ELETRIC‑BERT的实体抽取模型；使用模块替换策略，将原模型参数量压缩为原来的一半；使用压缩后的模型，进行实体抽取任务，从文本语料中抽取出领域实体。与现有实体抽取技术相比，本发明可以在实现高准确抽取率的同时，大幅度减少模型对标注语料的依赖。

技术领域

本发明涉及一种基于ELETRIC-BERT的实体抽取方法，属于自然语言处理技术领域。

背景技术

实体抽取，又称为命名实体识别，主要是识别出文本中实体的命名性指称项，并标明其类别，是信息抽取任务中的一项重要技术任务，在早期，主要是利用基于规则的方法进行实体抽取。基于规则的方法在小规模语料中，效果很好，但是需要人工编写相应规则，所以迁移能力差，通用性不强。后来，传统机器学习模型应用到了命名实体识别领域，以提高其鲁棒性。包括马尔可夫模型、最大熵模型等。基于传统机器学习模型的实体抽取方法，虽然取得了较好的性能，但是依赖于人工设计的特征，并且容易受到现有自然语言处理工具性能的影响。

近年来，随着深度学习的蓬勃发展，很多学者提出使用神经网络模型自动地从文本中提取特征，进而完成实体抽取任务，即使用深度学习模型进行实体抽取。基于深度学习的实体抽取模型，包括Lample提出的BiLSTM-CRF模型；Chiu提出的BiLSTM-CNN以及Zhang提出的LatticeLSTM。这些基于深度学习的实体抽取模型，均取得了优于基于规则或传统机器学习模型的效果，但是需要大量的标注语料。标注大量语料，费时费力，特别是在电力领域这样的垂直领域，组织专家，标注大量语料，难以实现，只能获取到少量标注语料，所以如何利用少量的标注语料，实现准确的实体抽取，是信息抽取技术在电力系统领域应用过程中亟需攻克的一个难题。

发明内容

为解决上述问题，本发明提供一种基于ELETRIC-BERT的实体抽取方法，在保证抽取准确率的同时，缓解模型对标注语料的依赖。

为了达到上述目的，本发明提供如下技术方案：

一种基于ELETRIC-BERT的实体抽取方法，，包括如下步骤：

步骤1：首先采集海量电力领域文本语料作为训练数据集；之后设计合适的预训练任务；最后进行预训练过程，对模型的参数进行更新，得到了蕴含丰富知识的领域预训练模型ELETRIC-BERT；

步骤2：将步骤1中通过预训练过程得到的领域预训练模型ELETRIC-BERT与实体抽取基本模型进行整合，得到基于ELETRIC-BERT的实体抽取模型；

步骤3：使用模块替换策略，将原模型参数量压缩为原来的一半；使用压缩后的模型，进行实体抽取任务，从文本语料中抽取出领域实体。

进一步的，所述步骤1中预训练任务为领域词完型填空，包括：对数据集中的文本语料进行句子级别的遮挡，每个句子随机遮挡其部分领域专有词，若句子中专有词不足，则使用StandfordCoreNLP进行依存分析，得到相应解析树，然后分析解析树，提取出句子中的普通词，对这部分普通词进行遮挡，填补专有词的空缺。

进一步的，遮挡的专有词字数占总句子的15％。

进一步的，所述步骤1预训练过程中，模型对句子中遮挡住的专用词进行预测，基于预测误差计算出的梯度，使用梯度下降算法对模型的参数进行更新。

进一步的，所述步骤2中整合过程为：在实体抽取基本模型上叠加领域预训练模型进行训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。