[发明专利]一种融入词边界信息的中文嵌套命名实体识别方法在审
申请号: | 202111620499.2 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114386417A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 史树敏;杨志坤;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/237 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 边界 信息 中文 嵌套 命名 实体 识别 方法 | ||
1.一种融入词边界信息的中文嵌套命名实体识别方法,其特征在于,包括以下步骤:
步骤1:获取中文嵌套实体识别语料库,以及外部词典和开源的中文静态词向量;
步骤2:对于语料中的每一个文本序列s,通过贪心算法得到匹配词M;
其中,文本序列s指待抽取嵌套实体的一个中文句子,由连续的字构成,符号表示为:s={w1,w2,...,wn},其中n表示句子的长度,wi表示句子中第i个字;
贪心算法的计算方式为:
首先,遍历文本序列中的每个字wi,在外部词典D中查找以wi为开始字且与wi之后的字能够一一对应的尽可能长的所有词汇,并记录每个匹配词对应原始文本的开始索引和结束索引位置;
其中,外部词典D是指独立于训练语料的词典文件,是中文常见词的集合,每个词由一个或多个字组成,符号表示为:D={d1,d2,...,d/D/},|D|表示词典文件中的单词数量,di表示词典中的第i个词汇;
文本匹配词M,是指文本序列与外部词典按照贪心算法匹配,根据文本匹配到的词典中的单词的集合为文本匹配词;文本序列s对应的匹配词表示为:M={m1,...,mK},其中K表示一个文本序列中匹配出来的词汇个数;
然后,将{m1,...,mK}的开始索引记为posM,start={posM,s1,...,posM,sK},将结束索引记为posM,end={posM,e1,...,posM,eK};
{w1,w2,...,wn}的开始索引和结束索引,均是从1开始递增,分别记为poss,start={1,2,...,n}、poss,end={1,2,...,n};
步骤3:通过开始索引posM,start、结束索引posM,end、poss,start、poss,end计算每两个位置之间的相对位置向量Rij,如下所示:
其中,posstart,i表示posM,start或poss,start中第i个的位置索引,posend,i表示posM,end或poss,end中第i个的位置索引,posstart,j、posend,j的定义同理,以此类推;
通过体现了字、匹配词之间的边界位置信息,表示利用位置向量PE得到索引为的位置向量,其携带边界信息的相对位置编码;Wr为模型需要学习的参数,ReLU()为深度学习中常用的激活函数;
位置向量PE指对于文本序列中每个字的位置索引pos对应的向量表示,通过三角函数计算得到,如式6、式7所示:
其中,dmodel表示位置向量的维度,PE(pos,2i)表示第pos索引位置向量的第i维度上值;
步骤4:从中文静态词向量E中得到文本序列s和匹配词M对应的向量表示E,
中文静态词向量E指根据大规模语料预训练得到开源的中文字、词的静态向量表示,其中,静态字向量表示为Ew,静态词向量表示为Em;
步骤5:使用两层Transformer-XL的编码结构,对步骤4得到的字词向量进行编码计算,再计算Attention阶段融合相对位置,得到带有词边界信息的每个字的向量表示;
具体地,方法如下:
sub_layer_output=LayerNorm(x+(SubLayer(x))) (8)
Att(A,V)=softmax(A)V (9)
其中,sublayer_output表示Transformer-XL的子层输出,LayerNorm()表示层级正则化计算,SubLayer()表示Transformer-XL的子层结构,Att()表示自注意力计算,A表示自注意力计算的注意力权重矩阵,aij表示A矩阵中第i行第j列的元素,V表示Transformer-XL前一子层的输出经过线性变换的结果,softmax()、ReLU()均为激活函数,FFN()表示前馈神经网络,xi、xj表示i、j索引位置的字符,表示xi、xj在中文静态词向量E中的向量表示,Wk,E、Wk,R均表示模型待学习的不同参数矩阵,其中是参数矩阵W1、W2、Wq的转置矩阵,b1、b2均表示模型待学习的不同参数列向量;
在每个Transformer-XL层中都包含两个子层,最后一层的输出为融合词边界信息的向量表示,记为xboundary,i,式8为子层计算的基本逻辑,x表示子层的输入向量,第一子层式9是式8的输入,第二子层式10是式8的输入,式9中的权重矩阵A的每位元素计算为式10,当前Transformer-XL层的输入为前一层的输出,初始化输出即为E;
步骤6:利用预训练语言模型LMBERT得到每个字带有语义信息的向量表示,将字wi的语义信息的向量表示记为xBERT,i;
语义信息,指通过计算每个句子中字之间的信息交互得到的句子层面的信息表示;
步骤7:按照式12对两种向量表示进行拼接,得到最终字的向量表示xi;
xi=[xBERT,i;xboundary,i] (12)
步骤8:利用双仿射分类器,计算每个开始索引位置为i、结束位置索引为j的文本片段spanij对于实体类型为c的概率p(i,j,c):
p(i,j,c)=softmax(scoreij) (16)
其中,FFNNs、FFNNe表示两个维度相同的独立线性映射层,分别表示由步骤7得到的文本片段spanij的开始字符以及结束字符的向量表示,softmax()表示常见的归一化层,Um、Wm表示模型的训练参数矩阵,bm表示模型的训练参数列向量;
实体类型c指语料库中标注出来的实体类型的集合,符号表示为c={O,c1,c2,...,c|C|},其中,O类型表示非实体类型,其余为预定义实体类型;
式13至式15是双仿射分类器的计算过程;首先通过两个独立的映射层保留字向量表示中带有实体起始位置信息hstart(i)、实体结尾位置信息的向量表示hend(j),经过双仿射分类器计算得到一个文本片段span(i,j)在不同实体类型上的得分scoreij,将分数经过softmax()层转化成最终的实体分类的概率p(i,j,c),模型选择概率最大的类型作为span(i,j)的实体类型预测结果;
使用模型预测结果与语料库中的标注结果的交叉熵,作为模型训练的损失函数,通过不断优化损失函数值来训练调整模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111620499.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电流指纹配对的检测方法
- 下一篇:高强度混凝土一体化绿色联动生产线
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置