[发明专利]一种基于神经网络的实体识别和规范化联合方法及模型有效
申请号: | 201710713734.8 | 申请日: | 2017-08-18 |
公开(公告)号: | CN107526798B | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 姬东鸿;娄银霞 | 申请(专利权)人: | 武汉红茶数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06N3/04 |
代理公司: | 武汉大楚知识产权代理事务所(普通合伙) 42257 | 代理人: | 徐杨松 |
地址: | 430000 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 实体 识别 规范化 联合 方法 模型 | ||
本发明涉及一种基于神经网络的实体识别和规范化联合方法及模型,其方法包括从词向量文本中读取目标文本中每个词的词向量,并作为实体识别子模型中的BI‑LSTM层的输入;所述BI‑LSTM层根据所述词向量生成对应的BI‑LSTM输出向量,所述BI‑LSTM输出向量包含了对应词向量在给定的某一时刻的过去和未来的上下文信息;根据所述BI‑LSTM输出向量生成目标文本中的识别实体以及对应的识别实体ID。本发明的基于神经网络的实体识别和规范化联合方法,基于神经网络的联合模型从大数据中自动学习特征,在使用中减少了手工设计特征的巨大工作量,可以有效利用实体识别和实体规范这两个任务之间的相互信息,避免了串行模型中的实体识别到实体规范的错误传播。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于神经网络的实体识别和规范化联合方法及模型。
背景技术
命名实体的识别(NER)是自然语言处理中的一个很重要的任务,也是信息抽取中的一个关键技术。命名实体识别任务是识别文本中实体的边界,且给它们分配一个类型。对于许多其它的信息检索任务,命名实体识别是一个基础任务,包括命名实体规范化,知识库的构建、关系抽取和机器翻译。尽管传统的机器学习的方法广泛地用于命名实体的识别,例如支持向量机、最大熵、隐马尔可夫和条件随机场等。但是,其性能的提升可能会受到几种常见因素的影响:
(1)随着语料和语言的变化,重构特征集是困难的。
(2)一些带有语义信息的复杂特征往往依赖于其它NLP模块的性能。
(3)具有专业知识的特征获取成本昂贵。
鉴于上述的浅层的机器学习方法有具有很强的人工特征的依赖性,且很难表示复杂的模型,近年来,深度学习被引进到了命名实体识别领域。Collobert等人提出统一神经网络架构和学习算法,用于各种自然语言处理任务,在NER任务中取得了较好的成果。陈宇等人采用深度置信网络提取中文文档中的实体,且效果高于传统的机器学习方法。长短期记忆(LSTM)也被用于具有复杂模型框架的识别命名实体。
文本中的命名实体从字面上看具有模糊性,例如:实体“Gates”在句子“Thegreater part of Gates’population is in Marion County.”和“Gates was a baseballplayer.”,我们需要分清第一个“Gates”是表示位置,另一个“Gates”表示人。命名实体在文本中也有多个的变量名。例如,“Anneke Gronoh”可能出现“Mw.Gronloh”、“AnnekeKronloh”或者“Mevrouw G”等多种形式因此。因此,需要对命名实体进行规范化。同时,实体规范化对实体检索、事件跟踪和知识库的构建起着重要的作用。命名实体规范化任务是链接文本中的命名实体到给定的知识库中规范的形式。例如:
句子“JetBlue begins direct service between Barnstable Airport and JFKInternational.”这里,“JetBlue”应该被连接到KB:JetBlue,“Barnstable Airport”连接到KB:Barnstable Municipal Airport和“JFK International”到KB:John F.KennedyInternational Airport。
目前,大多数处理实体识别和规范化联合方式使用串行的模型:如图1和图2所示,分别为现有的实体识别和规范化联合方法流程示意图和联合模型结构示意图,它们先执行命名实体识别模型识别实体在文本中的边界,然后再对已识别的实体进行规范。但是,串行的框架面临下面两个挑战:
(1)它们可能导致错误从实体识别传给实体规范
(2)实体规范有助于实体识别,但是串行的方法不能利用这种信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉红茶数据技术有限公司,未经武汉红茶数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710713734.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:口腔护理液
- 下一篇:实时数据处理方法及装置