[发明专利]一种基于Attention机制的命名实体识别方法在审

专利信息
申请号: 201910371706.1 申请日: 2019-05-06
公开(公告)号: CN110134954A 公开(公告)日: 2019-08-16
发明(设计)人: 王丹;徐书世;赵青;杜金莲;付利华 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 命名实体 特征构建 字符特征提取 词语相似度 分类器模块 计算机领域 上下文信息 词语提取 权重信息 实体标签 特征融合 特征提取 字符位置 中文字 准确率 融合 引入 预测 机场
【权利要求书】:

1.一种基于Attention机制的命名实体识别方法,其特征包括三个模块:相似词语提取模块、特征构建模块和分类器模块;

(1)相似词语提取模块

在各种信息输入网络之前,对词库中所有词语进行处理的过程;通过词语相似度算法来找到每个词语最相似的词语;

(2)特征构建模块

特征提取模块包括词语相似度融合、词特征提取、字符特征提取和特征融合四个子模块;

(3)分类器模块

分类器采用条件随机场CRF,将获得的输出信息Combine作为CRF的输入并生成分类标签结果。

2.根据权利要求1所述的一种基于中文字素的命名实体识别方法,其特征在于具体如下:

(1)相似词语提取模块

词语相似度模块是在信息输入网络之前的处理过程,目的通过词语相似度算法来寻找与每个词语相似度最高的词语;

设W为所有词集合,则对于每个其中每个词语Wi,其中Wi,1≤i≤n,n为集合大小,Wi为集合中某个词语;则目标Wj为:

上式中的similarity(Wi,Wj)为计算Wi和Wj之间的相似度;设Wi和Wj的长度分别为N和M,公共长度为S,且公共部分在两者中的位置分别为ctrls和keys;则二者之间的相似度公式similarity(Wi,Wj)如下:

其中意为两个词语长度的比值,且总小于等于1,

表示每个字素在词语中的权值,x为语素在词语中的位置;

(21)词语相似度融合

在获得每个词语的相似词之后,通过注意力机制引入中文字素信息,将得到的结果作为词信息提取模块的输入;

设输入句子的词向量集合为V,V中的元素为Vk,1≤k≤L,L为句子长度,其中每个词向量大小为H;每个词向量对应的最大相似度词向量集合为SV,SV中的元素为SVk,1≤k≤L,L为句子长度,其中每个词向量大小为H;

注意力机制公式为:

其中Query为SV,Key和Value为V;SV与V的转置相乘即得到V中的每个向量与V中每个向量的相似度,然后通过softmax为SV中的向量分配一个权重,即Attention;

获得Attention后,代入以下公式:

O(Attention,Value)=AttentionValue

即获得下层网络的输入O,其形状为(L,H),其中L为句子长度,H为词向量的大小,公式中的Value代表词向量集合V;

(22)词语特征提取

采用双向长短期神经网络BiLSTM对句子进行处理来提取词语特征;处理词信息网络的实际输入为(21)节中得到的输出向量O;将句子正向输入一个LSTM得到正向信息,然后将句子反向输入另一个LSTM得到反向信息,然后将二者拼接起来即获得了句子的上下文信息;

(23)字符特征提取

采用BiLSTM双向长短期神经网络对每个词的字符进行处理;其输入为(21)节得到的向量O对应的实际词语的每个字符,将每个词的字符向量分别正向和反向输入两个LSTM获得正向和反向信息,然后拼接起来获得上下文信息;

(24)特征融合

采用注意力机制来对词信息和字符信息进行处理,同时引入字符位置权重来更好的筛选更有价值的字符信息;

通过(22)得到表示一个句子的词信息集合WI,WI中的元素为WIp,1≤p≤L,L为句子长度,通过(23)得到对应的字符信息集合CI,CI中的元素为CIpq,1≤p≤L,L为句子长度,CIpq表示第p个词中的第q个字符信息向量;

使用的注意力机制公式如下:

Attention(WIp,CIp)=softmax((WIpCIpT)·Weightp)CIp

在该公式中,输入为句子中的某个词信息和该词对应的字符信息集合;WIp结构为(1,H),CIp结构为(lengthp,H),其中Lengthp为第p个词信息对应的原词语的字符数量;在这里,把句子中的向量当做Query,把字符向量当做Key和Value;其中的下标p表示句子中的第p个向量,式中softmax函数内的内容表示通过矩阵乘法得到Query与每个Key的相似度之后乘上位置权重信息;经过softmax处理之后,即得到一个词中每个字符的权重信息,加权求和之后得到最终的注意力信息,式中的矩阵乘法等价于加权求和;

式中的Weightp为字符位置权重信息集合,结构为(1,lengthp);其组成为:

(word(1,lengthp),(word(2,lengthp)...(word(lengthp,lengthp),

对于一个词语中的每个字符,设其在词语中的位置为q,则该字符的字符位置权重为:

其中c为1到lengthp中的某一项;

得到注意力之后,通过公式:Combinep=Attention(WIp,CIp)·WIp即得到本节的输出结果Combine,其中Combinep为Combine中的第p项,其结构为(1,H),Combine的结构为(L,H)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910371706.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top