[发明专利]一种用于命名实体识别的方法与装置在审

专利信息
申请号: 202010054650.X 申请日: 2020-01-17
公开(公告)号: CN111291565A 公开(公告)日: 2020-06-16
发明(设计)人: 宋彦;田元贺;王咏刚 申请(专利权)人: 创新工场(广州)人工智能研究有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/211;G06N3/04;G06N3/08
代理公司: 北京启坤知识产权代理有限公司 11655 代理人: 赵晶
地址: 510700 广东省广州*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 命名 实体 识别 方法 装置
【说明书】:

发明的目的是提供一种命名实体识别方法与装置。根据输入词序列,获取其中每个词的上下文特征及其对应的句法知识;针对所述每个词,将其每个上下文特征以及相应的句法知识分别映射为一个键向量和一个相应的值向量;确定所述每个词的所有值向量的加权和向量;对所述输入词序列中每个词的所述词向量与所述加权和向量串联后的向量进行命名实体预测,以获得相应的识别结果,所述识别结果指示所述每个词的命名实体标签。与现有技术相比,本发明把加权的句法知识引入到通常的基于序列标注的深度学习命名实体识别系统中。因此,本发明能够在深度学习的框架中有效利用上下文特征来为其所对应的句法知识加权,进而提升命名实体识别系统的性能。

技术领域

本发明涉及自然语言处理(NLP,Natural Language Processing)技术领域,尤其涉及一种命名实体识别(NER,Named Entity Recognition)技术。

背景技术

命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。例如,“张三”是人名、“北京”是地名等。在科学文本中,常见的命名实体还有疾病名称(例如“先天性心脏病”)、专业术语(“简谐振动”)等等。

命名实体识别指对输入的一个词序列,将其中的命名实体识别出来的自然语言处理任务。例如,对于输入的词序列(词与词之间以“/”隔开)“张三/患有/先天性/心脏病”,命名实体识别的任务是识别出其中的命名实体,即人名“张三”以及疾病名称“先天性心脏病”。

命名实体标签,命名实体标注器赋予输入词序列中每一个词一个标签,以表示命名实体识别的结果。目前主流的命名实体标签共有3类:“B-X”(“X”表示某一个命名实体类别的标签,例如疾病名称“Disease”)表示该词是一个命名实体的首词,“I-X”表示该词是一个命名实体的非首词,“E-X”表示该词是一个命名实体的尾词,“0”表示该词不是一个命名实体的组成部分。例如词序列“张三/患有/先天性/心脏病”中每一个词的命名实体标签依次为“B-Person”、“0”、“B-Disease”、“E-Disease”。

命名实体识别的技术可以分为基于特征的传统方法和深度学习方法。

基于特征的方法指,通过人工设计、选取特征的方法,对输入的词序列进行特征提取,基于这些特征对当前词的命名实体标签进行判断。常用的特征包括当前词、前词、后词等。然而,这种方法的效果高度依赖于人工设计、提取的特征的质量,而设计高质量的特征提取方法非常困难。

此外,考虑到科学文本具有语言正式、用语规范、句子较长的特点,传统方法也尝试利用通过自动方法获取的外部句法知识,来提升命名实体识别系统的表现。名词短语的句法知识往往暗示这个短语中可能存在一个命名实体,例如“先天性心脏病”是一个名词短语,同时它本身也是一个命名实体。然而,传统方法对外部句法知识的利用,主要是依靠把这些句法知识视为正确的参考(gold reference)来训练模型,所以,那些由于外部自动工具的性能问题所产生的错误的知识,将会对基于特征的传统方法产生负面的影响。

近年来,深度学习方法被逐渐应用在命名实体识别中,其能够依据具体任务的特点,自动实现对文本特征的提取,免去了人工设计、提取特征的巨大成本。深度学习的识别效果远远超过了单纯的传统方法。

发明内容

本发明的目的是提供一种命名实体识别方法、装置以及计算机设备、计算机可读存储介质与计算机程序产品。

根据本发明的一个方面,提供了一种命名实体识别方法,其中,该方法包括以下步骤:

根据输入词序列,获取其中每个词的上下文特征及其对应的句法知识;

针对所述每个词,将其每个上下文特征以及相应的句法知识分别映射为一个键向量和一个相应的值向量;

确定所述每个词的所有值向量的加权和向量,其中每个值向量依据该词的所述词向量以及该值向量相应的键向量来赋权;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新工场(广州)人工智能研究有限公司,未经创新工场(广州)人工智能研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010054650.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top