[发明专利]一种正则化领域知识辅助的命名实体识别方法在审

专利信息
申请号: 202310267754.2 申请日: 2023-03-20
公开(公告)号: CN116306653A 公开(公告)日: 2023-06-23
发明(设计)人: 冯建周;徐甘霖 申请(专利权)人: 燕山大学
主分类号: G06F40/295 分类号: G06F40/295;G06F18/214;G06F18/40
代理公司: 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 代理人: 张建
地址: 066004 河北*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 正则 领域 知识 辅助 命名 实体 识别 方法
【权利要求书】:

1.一种正则化领域知识辅助的命名实体识别方法,其特征在于,包括:

S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;

S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;

S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。

2.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于所述的正则表达式的知识标注方法工作步骤如下:

S1.1、基于已有的训练数据,人工注释若干正则表达式规则;

S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;

S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。

3.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,所述教师模型为EBRT模型,知识提取方法的工作步骤如下:

S2.1、对于给定的输入句子序列x=x1,x2,…,xi,…,x|X|,对应的伪标签为将(x,y)输入并训练BERT模型,|X|是序列的长度;

S2.2、通过最小化交叉熵损失来训练BERT模型:

其中,代表指示函数,如果则输出1,否则输出0;表示是字符标签的集合;是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。

4.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于知识蒸馏的知识传递方法的工作步骤如下:

S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;

S3.2、学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|),教师模型层每个字符的预测标签软标签

S3.3、将学生模型输出的概率序列P,分别与真实标签y=y1,y2,…,yi,…,y|X|和软标签分别计算交叉熵损失

其中,序列标注模型的损失部分,表示交叉熵损失函数,α和β是权重系数,用于衡量模型的贡献程度,T代表知识蒸馏中的温度参数,其值越大,概率序列越平滑。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310267754.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top