[发明专利]一种基于Attention机制的命名实体识别方法在审

申请号：	201910371706.1	申请日：	2019-05-06
公开（公告）号：	CN110134954A	公开（公告）日：	2019-08-16
发明（设计）人：	王丹;徐书世;赵青;杜金莲;付利华	申请（专利权）人：	北京工业大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	命名实体特征构建字符特征提取词语相似度分类器模块计算机领域上下文信息词语提取权重信息实体标签特征融合特征提取字符位置中文字准确率融合引入预测机场
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Attention机制的命名实体识别方法，其特征包括三个模块：相似词语提取模块、特征构建模块和分类器模块；

(1)相似词语提取模块

在各种信息输入网络之前，对词库中所有词语进行处理的过程；通过词语相似度算法来找到每个词语最相似的词语；

(2)特征构建模块

特征提取模块包括词语相似度融合、词特征提取、字符特征提取和特征融合四个子模块；

(3)分类器模块

分类器采用条件随机场CRF，将获得的输出信息Combine作为CRF的输入并生成分类标签结果。

2.根据权利要求1所述的一种基于中文字素的命名实体识别方法，其特征在于具体如下：

(1)相似词语提取模块

词语相似度模块是在信息输入网络之前的处理过程，目的通过词语相似度算法来寻找与每个词语相似度最高的词语；

设W为所有词集合，则对于每个其中每个词语W_i，其中W_i,1≤i≤n,n为集合大小，W_i为集合中某个词语；则目标W_j为：

上式中的similarity(W_i，W_j)为计算W_i和W_j之间的相似度；设W_i和W_j的长度分别为N和M，公共长度为S，且公共部分在两者中的位置分别为ctrls和keys；则二者之间的相似度公式similarity(W_i，W_j)如下：

其中意为两个词语长度的比值，且总小于等于1，

表示每个字素在词语中的权值，x为语素在词语中的位置；

(21)词语相似度融合

在获得每个词语的相似词之后，通过注意力机制引入中文字素信息，将得到的结果作为词信息提取模块的输入；

设输入句子的词向量集合为V，V中的元素为V_k,1≤k≤L,L为句子长度，其中每个词向量大小为H；每个词向量对应的最大相似度词向量集合为SV，SV中的元素为SV_k,1≤k≤L,L为句子长度，其中每个词向量大小为H；

注意力机制公式为：

其中Query为SV，Key和Value为V；SV与V的转置相乘即得到V中的每个向量与V中每个向量的相似度，然后通过softmax为SV中的向量分配一个权重，即Attention；

获得Attention后，代入以下公式：

O(Attention，Value)＝AttentionValue

即获得下层网络的输入O，其形状为(L,H)，其中L为句子长度，H为词向量的大小，公式中的Value代表词向量集合V；

(22)词语特征提取

采用双向长短期神经网络BiLSTM对句子进行处理来提取词语特征；处理词信息网络的实际输入为(21)节中得到的输出向量O；将句子正向输入一个LSTM得到正向信息，然后将句子反向输入另一个LSTM得到反向信息，然后将二者拼接起来即获得了句子的上下文信息；

(23)字符特征提取

采用BiLSTM双向长短期神经网络对每个词的字符进行处理；其输入为(21)节得到的向量O对应的实际词语的每个字符，将每个词的字符向量分别正向和反向输入两个LSTM获得正向和反向信息，然后拼接起来获得上下文信息；

(24)特征融合

采用注意力机制来对词信息和字符信息进行处理，同时引入字符位置权重来更好的筛选更有价值的字符信息；

通过(22)得到表示一个句子的词信息集合WI，WI中的元素为WI_p，1≤p≤L，L为句子长度，通过(23)得到对应的字符信息集合CI，CI中的元素为CI_pq，1≤p≤L,L为句子长度,CI_pq表示第p个词中的第q个字符信息向量；

使用的注意力机制公式如下：

Attention(WI_p，CI_p)＝softmax((WI_pCI_p^T)·Weight_p)CI_p；

在该公式中，输入为句子中的某个词信息和该词对应的字符信息集合；WI_p结构为(1,H)，CI_p结构为(length_p，H),其中Length_p为第p个词信息对应的原词语的字符数量；在这里，把句子中的向量当做Query，把字符向量当做Key和Value；其中的下标p表示句子中的第p个向量，式中softmax函数内的内容表示通过矩阵乘法得到Query与每个Key的相似度之后乘上位置权重信息；经过softmax处理之后，即得到一个词中每个字符的权重信息，加权求和之后得到最终的注意力信息，式中的矩阵乘法等价于加权求和；

式中的Weight_p为字符位置权重信息集合，结构为(1，length_p)；其组成为:

(word(1，length_p)，(word(2，length_p)...(word(length_p，length_p)，

对于一个词语中的每个字符，设其在词语中的位置为q，则该字符的字符位置权重为:

其中c为1到length_p中的某一项；

得到注意力之后，通过公式：Combine_p＝Attention(WI_p，CI_p)·WI_p即得到本节的输出结果Combine，其中Combine_p为Combine中的第p项，其结构为(1,H)，Combine的结构为(L,H)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910371706.1/1.html，转载请声明来源钻瓜专利网。