[发明专利]基于ELETRIC-BERT的实体抽取方法在审

专利信息
申请号: 202111239034.2 申请日: 2021-10-25
公开(公告)号: CN113962214A 公开(公告)日: 2022-01-21
发明(设计)人: 宋爱波;周宇;孙季斌 申请(专利权)人: 东南大学
主分类号: G06F40/216 分类号: G06F40/216;G06F40/295;G06F16/33;G06N3/04;G06N3/08
代理公司: 南京众联专利代理有限公司 32206 代理人: 叶涓涓
地址: 210000 江苏省南京市*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 eletric bert 实体 抽取 方法
【说明书】:

发明提供了一种基于ELETRIC‑BERT的实体抽取方法,包括:通过预训练得到领域预训练模型ELETRIC‑BERT;将领域预训练模型ELETRIC‑BERT与实体抽取基本模型进行整合,得到基于ELETRIC‑BERT的实体抽取模型;使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。与现有实体抽取技术相比,本发明可以在实现高准确抽取率的同时,大幅度减少模型对标注语料的依赖。

技术领域

本发明涉及一种基于ELETRIC-BERT的实体抽取方法,属于自然语言处理技术领域。

背景技术

实体抽取,又称为命名实体识别,主要是识别出文本中实体的命名性指称项,并标明其类别,是信息抽取任务中的一项重要技术任务,在早期,主要是利用基于规则的方法进行实体抽取。基于规则的方法在小规模语料中,效果很好,但是需要人工编写相应规则,所以迁移能力差,通用性不强。后来,传统机器学习模型应用到了命名实体识别领域,以提高其鲁棒性。包括马尔可夫模型、最大熵模型等。基于传统机器学习模型的实体抽取方法,虽然取得了较好的性能,但是依赖于人工设计的特征,并且容易受到现有自然语言处理工具性能的影响。

近年来,随着深度学习的蓬勃发展,很多学者提出使用神经网络模型自动地从文本中提取特征,进而完成实体抽取任务,即使用深度学习模型进行实体抽取。基于深度学习的实体抽取模型,包括Lample提出的BiLSTM-CRF模型;Chiu提出的BiLSTM-CNN以及Zhang提出的LatticeLSTM。这些基于深度学习的实体抽取模型,均取得了优于基于规则或传统机器学习模型的效果,但是需要大量的标注语料。标注大量语料,费时费力,特别是在电力领域这样的垂直领域,组织专家,标注大量语料,难以实现,只能获取到少量标注语料,所以如何利用少量的标注语料,实现准确的实体抽取,是信息抽取技术在电力系统领域应用过程中亟需攻克的一个难题。

发明内容

为解决上述问题,本发明提供一种基于ELETRIC-BERT的实体抽取方法,在保证抽取准确率的同时,缓解模型对标注语料的依赖。

为了达到上述目的,本发明提供如下技术方案:

一种基于ELETRIC-BERT的实体抽取方法,,包括如下步骤:

步骤1:首先采集海量电力领域文本语料作为训练数据集;之后设计合适的预训练任务;最后进行预训练过程,对模型的参数进行更新,得到了蕴含丰富知识的领域预训练模型ELETRIC-BERT;

步骤2:将步骤1中通过预训练过程得到的领域预训练模型ELETRIC-BERT与实体抽取基本模型进行整合,得到基于ELETRIC-BERT的实体抽取模型;

步骤3:使用模块替换策略,将原模型参数量压缩为原来的一半;使用压缩后的模型,进行实体抽取任务,从文本语料中抽取出领域实体。

进一步的,所述步骤1中预训练任务为领域词完型填空,包括:对数据集中的文本语料进行句子级别的遮挡,每个句子随机遮挡其部分领域专有词,若句子中专有词不足,则使用StandfordCoreNLP进行依存分析,得到相应解析树,然后分析解析树,提取出句子中的普通词,对这部分普通词进行遮挡,填补专有词的空缺。

进一步的,遮挡的专有词字数占总句子的15%。

进一步的,所述步骤1预训练过程中,模型对句子中遮挡住的专用词进行预测,基于预测误差计算出的梯度,使用梯度下降算法对模型的参数进行更新。

进一步的,所述步骤2中整合过程为:在实体抽取基本模型上叠加领域预训练模型进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111239034.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top