[发明专利]一种正则化领域知识辅助的命名实体识别方法在审
申请号: | 202310267754.2 | 申请日: | 2023-03-20 |
公开(公告)号: | CN116306653A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 冯建周;徐甘霖 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F18/214;G06F18/40 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 张建 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 正则 领域 知识 辅助 命名 实体 识别 方法 | ||
1.一种正则化领域知识辅助的命名实体识别方法,其特征在于,包括:
S1、使用人工注释的正则表达式规则来匹配原始训练集中的实体提及,为句子中每个字符生成伪标签;
S2、用上述带有伪标签的训练数据训练预训练模型(教师模型),将正则化的领域知识嵌入到教师模型中;
S3、使用知识蒸馏方式,训练命名实体识别模型(学生模型)的同时,将教师模型中的领域知识传递到命名实体识别模型(学生模型)中,实现了实体识别性能的增强。
2.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于所述的正则表达式的知识标注方法工作步骤如下:
S1.1、基于已有的训练数据,人工注释若干正则表达式规则;
S1.2、将输入句子与上述的若干正则表达式逐一匹配,生成对应字符的伪标签并识别出相应的实体,使用上述的正则表达式匹配后抽取的实体;
S1.3、对抽取出的实体采用BIO方法进行标注,其中,“B”(begin)代表实体的开头,“I”(inside)代表实体的中间或结尾,“O”(other)表该词为非实体词。
3.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,所述教师模型为EBRT模型,知识提取方法的工作步骤如下:
S2.1、对于给定的输入句子序列x=x1,x2,…,xi,…,x|X|,对应的伪标签为将(x,y)输入并训练BERT模型,|X|是序列的长度;
S2.2、通过最小化交叉熵损失来训练BERT模型:
其中,代表指示函数,如果则输出1,否则输出0;表示是字符标签的集合;是模型输出的所有标签的概率分布;W和b是可学习的参数;hi是xi在预训练模型中对应的输出,经过训练的BERT模型作为教师模型。
4.根据权利要求1所述的一种正则化领域知识辅助的命名实体识别方法,其特征在于,基于知识蒸馏的知识传递方法的工作步骤如下:
S3.1、将原始训练集同时输入到的BERT模型和命名实体识别模型,其中,预训练的BERT模型作为教师模型,命名实体模型作为学生模型;
S3.2、学生模型在线性层输出每个字符预测的概率序列P=(P1,P2,…,P|X|),教师模型层每个字符的预测标签软标签
S3.3、将学生模型输出的概率序列P,分别与真实标签y=y1,y2,…,yi,…,y|X|和软标签分别计算交叉熵损失
其中,序列标注模型的损失部分,表示交叉熵损失函数,α和β是权重系数,用于衡量模型的贡献程度,T代表知识蒸馏中的温度参数,其值越大,概率序列越平滑。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310267754.2/1.html,转载请声明来源钻瓜专利网。