[发明专利]一种基于Attention机制的命名实体识别方法在审
申请号: | 201910371706.1 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110134954A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 王丹;徐书世;赵青;杜金莲;付利华 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 特征构建 字符特征提取 词语相似度 分类器模块 计算机领域 上下文信息 词语提取 权重信息 实体标签 特征融合 特征提取 字符位置 中文字 准确率 融合 引入 预测 机场 | ||
1.一种基于Attention机制的命名实体识别方法,其特征包括三个模块:相似词语提取模块、特征构建模块和分类器模块;
(1)相似词语提取模块
在各种信息输入网络之前,对词库中所有词语进行处理的过程;通过词语相似度算法来找到每个词语最相似的词语;
(2)特征构建模块
特征提取模块包括词语相似度融合、词特征提取、字符特征提取和特征融合四个子模块;
(3)分类器模块
分类器采用条件随机场CRF,将获得的输出信息Combine作为CRF的输入并生成分类标签结果。
2.根据权利要求1所述的一种基于中文字素的命名实体识别方法,其特征在于具体如下:
(1)相似词语提取模块
词语相似度模块是在信息输入网络之前的处理过程,目的通过词语相似度算法来寻找与每个词语相似度最高的词语;
设W为所有词集合,则对于每个其中每个词语Wi,其中Wi,1≤i≤n,n为集合大小,Wi为集合中某个词语;则目标Wj为:
上式中的similarity(Wi,Wj)为计算Wi和Wj之间的相似度;设Wi和Wj的长度分别为N和M,公共长度为S,且公共部分在两者中的位置分别为ctrls和keys;则二者之间的相似度公式similarity(Wi,Wj)如下:
其中意为两个词语长度的比值,且总小于等于1,
表示每个字素在词语中的权值,x为语素在词语中的位置;
(21)词语相似度融合
在获得每个词语的相似词之后,通过注意力机制引入中文字素信息,将得到的结果作为词信息提取模块的输入;
设输入句子的词向量集合为V,V中的元素为Vk,1≤k≤L,L为句子长度,其中每个词向量大小为H;每个词向量对应的最大相似度词向量集合为SV,SV中的元素为SVk,1≤k≤L,L为句子长度,其中每个词向量大小为H;
注意力机制公式为:
其中Query为SV,Key和Value为V;SV与V的转置相乘即得到V中的每个向量与V中每个向量的相似度,然后通过softmax为SV中的向量分配一个权重,即Attention;
获得Attention后,代入以下公式:
O(Attention,Value)=AttentionValue
即获得下层网络的输入O,其形状为(L,H),其中L为句子长度,H为词向量的大小,公式中的Value代表词向量集合V;
(22)词语特征提取
采用双向长短期神经网络BiLSTM对句子进行处理来提取词语特征;处理词信息网络的实际输入为(21)节中得到的输出向量O;将句子正向输入一个LSTM得到正向信息,然后将句子反向输入另一个LSTM得到反向信息,然后将二者拼接起来即获得了句子的上下文信息;
(23)字符特征提取
采用BiLSTM双向长短期神经网络对每个词的字符进行处理;其输入为(21)节得到的向量O对应的实际词语的每个字符,将每个词的字符向量分别正向和反向输入两个LSTM获得正向和反向信息,然后拼接起来获得上下文信息;
(24)特征融合
采用注意力机制来对词信息和字符信息进行处理,同时引入字符位置权重来更好的筛选更有价值的字符信息;
通过(22)得到表示一个句子的词信息集合WI,WI中的元素为WIp,1≤p≤L,L为句子长度,通过(23)得到对应的字符信息集合CI,CI中的元素为CIpq,1≤p≤L,L为句子长度,CIpq表示第p个词中的第q个字符信息向量;
使用的注意力机制公式如下:
Attention(WIp,CIp)=softmax((WIpCIpT)·Weightp)CIp;
在该公式中,输入为句子中的某个词信息和该词对应的字符信息集合;WIp结构为(1,H),CIp结构为(lengthp,H),其中Lengthp为第p个词信息对应的原词语的字符数量;在这里,把句子中的向量当做Query,把字符向量当做Key和Value;其中的下标p表示句子中的第p个向量,式中softmax函数内的内容表示通过矩阵乘法得到Query与每个Key的相似度之后乘上位置权重信息;经过softmax处理之后,即得到一个词中每个字符的权重信息,加权求和之后得到最终的注意力信息,式中的矩阵乘法等价于加权求和;
式中的Weightp为字符位置权重信息集合,结构为(1,lengthp);其组成为:
(word(1,lengthp),(word(2,lengthp)...(word(lengthp,lengthp),
对于一个词语中的每个字符,设其在词语中的位置为q,则该字符的字符位置权重为:
其中c为1到lengthp中的某一项;
得到注意力之后,通过公式:Combinep=Attention(WIp,CIp)·WIp即得到本节的输出结果Combine,其中Combinep为Combine中的第p项,其结构为(1,H),Combine的结构为(L,H)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910371706.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于中医古籍文献的中医命名实体识别方法及识别系统
- 下一篇:一种语义处理方法