[发明专利]融合局部-全局字符级关联特征的中文命名实体识别方法在审
申请号: | 202010394579.X | 申请日: | 2020-05-11 |
公开(公告)号: | CN111651993A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 罗森林;尹继泽;吴舟婷;潘丽敏;吴倩 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 局部 全局 字符 关联 特征 中文 命名 实体 识别 方法 | ||
1.融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于所述方法包括如下步骤:
步骤1,对非结构化中文文本进行字符-数值向量表查找,包括:获取公开的基于语言模型训练的字符-数值向量表,然后依次选择非结构化中文文本中的字符,到字符-数值向量表中查找字符对应的数值向量并进行替换,将一段中文文本转化为一个初始数值向量序列;
步骤2,提取初始数值向量序列的特征,包括:使用两个双向长短时记忆提取字符级序列特征,再使用若干个注意力头和一个非线性神经网络层提取全局字符级关联特征,以及使用卷积注意力网络提取局部-全局字符级关联特征,然后将三者的输出在字符级别上串联,获得串联后的特征向量序列;
步骤3,标注串联后的特征向量序列,包括:使用一个线性链式条件随机场对串联后的特征向量序列进行标注,得到标签序列;
步骤4,对非结构化中文文本和标签序列进行后处理,包括:将非结构化中文文本和标签序列对齐,即字符和标签按前后顺序一一对应,然后根据标签判定命名实体,以“实体类别”对的形式输出。
2.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于:步骤2中使用若干个注意力头同时处理初始数值向量序列,每个注意力头是一个基于点乘的软注意力模型Attention(QWQ,KWK,VWV),具体如式1所示;
Attention(QWQ,KWK,VWV)=softmax(QWQ(KWK)T)VWV (1)
其中Q、K和V都是初始数值向量序列构成的矩阵,WQ、WK和WV为权重;
然后,若干个注意力头处理后的结果在字符级别上进行串联,如式2所示;
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中和WO是权重;
最后,使用一个非线性神经网络层进行后续处理,计算字符级关联特征向量序列对应的矩阵O,如式3所示;
O=LeakyReLU(MultiHead(Q,K,V)WN+bN)+MultiHead(Q,K,V) (3)
其中,使用leaky ReLU函数作为激活函数,WN为权重,bN为偏置值。
3.根据权利要求1所述的融合局部-全局字符级关联特征的中文命名实体识别方法,其特征在于:步骤2中使用卷积注意力网络(CAN)处理初始数值向量序列,对于中文命名实体识别,输入的句子为Xi={xi,1,xi,2,xi,3,...,xi,τ},其中表示句子Xi中第τ个字符,de是输入嵌入的维度;句子标签序列Yi={yi,1,yi,2,yi,3,...,yi,τ},其中即yi,τ属于所有可能标签的集合;
对输入的句子进行编码,把局部文本中的意义相关字符组合起来;将位置嵌入组合到对应的训练好的字符嵌入后面,保持在局部窗口中的序列关系;位置嵌入的维度等于窗口大小k,位置嵌入中与字符在窗口中的位置对应的那一维的值是1,其他维的值是0;
在大小为k的窗口内应用局部注意力,捕获目标字符和窗口内每个字符间的关系;设隐层维度为dh,对于第j个字符,局部注意力将所有的组合嵌入作为输入,输出对应的隐向量隐向量的计算方式为
s(xj,xk)=vTtanh(W1xj+W2xk) (6)
其中
依次使用窗口大小为k、包含dh个卷积核的卷积神经网络(CNN)和一个sum-pooling层进行处理,得到
其中而*代表元素乘,是隐向量的组合;
然后,使用一个双向门控循环单元(BiGRU)处理
是BiGRU前一时刻的隐状态,是参数;
最后,经过一个全局注意力层的处理得到作为输出;
其中与前面的相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010394579.X/1.html,转载请声明来源钻瓜专利网。