[发明专利]命名实体识别方法和装置在审
申请号: | 202010314468.3 | 申请日: | 2020-04-20 |
公开(公告)号: | CN113536791A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 卡纳萨·库恩卡莱;邴立东;阮海天;玛哈尼·阿裕尼 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F40/284;G06K9/62 |
代理公司: | 北京展翼知识产权代理事务所(特殊普通合伙) 11452 | 代理人: | 屠长存 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名 实体 识别 方法 装置 | ||
1.一种命名实体识别方法,包括:
以命名实体识别任务作为主任务,以句子分类任务作为辅助任务,按照多任务学习的方式,对识别模型进行训练,所述识别模型具有命名实体识别任务和句子分类任务共用的共享层和分别用于命名实体识别任务和句子分类任务的任务特定层;以及
将文本输入到经过训练的识别模型,得到相应的命名实体识别结果。
2.根据权利要求1所述的命名实体识别方法,其中,所述对识别模型进行训练的步骤包括:
使用具有句子分类标签的训练样本对句子分类模型进行预训练,以得到经过预训练的共享层参数,所述句子分类模型包括所述共享层和用于句子分类任务的任务特定层;以及
使用具有命名实体识别标签和句子分类标签的训练样本对所述识别模型进行训练。
3.根据权利要求2所述的命名实体识别方法,其中,
为了训练句子分类模型,使下述多分类交叉熵损失函数最小化:
其中,i表示句子索引,N是训练样本的数量,K是目标分类的数量,sk是应用softmax函数后的第k个目标分类的标准化预测分值,而t是独热编码的真标签,
为了训练命名实体识别模型,使正确标签序列相对于训练集的负对数似然函数最小化:
其中,y表示标签序列,p(y(i)|H'(i))是基于对应于第i个句子的最终隐藏表示H'(i)得到的标签序列y的概率,命名实体识别模型包括所述共享层和用于命名实体识别任务的任务特定层,
结合和得到联合损失函数
其中,λ是平衡参数,
在对所述识别模型进行训练的过程中,使联合损失函数最小化。
4.根据权利要求1所述的命名实体识别方法,其中,
共享层包括下述至少一项:词嵌入层、投影层、BiLSTM层、注意力层,输出最终隐藏表示;并且/或者
用于命名实体识别任务的任务特定层包括条件随机场层,条件随机场层基于最终隐藏表示得到命名实体识别结果;并且/或者
用于句子分类任务的任务特定层包括池化层和线性层,池化层对最终隐藏表示进行池化处理以得到线性层的输入,线性层输出句子分类结果。
5.根据权利要求4所述的命名实体识别方法,其中,
词嵌入层是经过预训练的词嵌入层;并且/或者
词嵌入层的输入是对训练样本或所述文本进行分词处理后得到的分词序列;并且/或者
词嵌入层将所输入的分词序列中的分词分别表示为对应的词嵌入向量;并且/或者
投影层对词嵌入向量进行投影,得到BiLSTM层的对应于分词的输入向量;并且/或者
BiLSTM层输出对应于分词的隐藏表示;并且/或者
注意力层对隐藏表示施加注意力机制,得到对应于分词的最终隐藏表示;并且/或者
池化层对最终隐藏表示进行最大池化,以创建固定尺寸全局向量,作为线性层的输入;并且/或者
线性层基于池化层输出的固定尺寸全局向量,获得每个分类的预测分值。
6.根据权利要求5所述的命名实体识别方法,其中,注意力层通过下述公式得到最终隐藏表示:
H′=concat(head1,...,headn)WO+H,
headj=attention(Qj,Kj,Vj),
其中,H是隐藏表示,H'是最终隐藏表示,n是自注意力机制中头的个数,j是对应头的序号,1≤j≤n,WjQ,WjK,WjV,WO是权重矩阵,concat()是连接函数,attention()是注意力函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010314468.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种报文转发方法及网络设备
- 下一篇:一种考虑碱度变化影响的优化配料方法