[发明专利]一种基于注意力机制的序列标注联合抽取实体关系的方法在审

专利信息
申请号: 201811157788.1 申请日: 2018-09-30
公开(公告)号: CN109408812A 公开(公告)日: 2019-03-01
发明(设计)人: 刘博;张佳慧;史超 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06K9/62;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 注意力机制 序列标注 上下文信息 解码 记忆网络 实体关系 语句 标注 抽取 预处理 单字 编码阶段 词语转换 方向推算 实体标签 输入序列 向量表示 信息向量 过去的 输入层 隐藏层 分词 去噪 向后 语料 联合 携带 学习 引入 概率 中文
【说明书】:

发明公开了一种基于注意力机制的序列标注联合抽取实体关系的方法,先将海量的中文语句语料进行去噪等预处理,然后进行分词,对单个的词语转换成向量表示,这样作为双向长短时记忆网络的输入对单字进行编码。使用双向长短时记忆网络不仅可以学习长期和短期依赖信息,还可以同时将输入层的数据经过向前和向后两个方向推算,从而学习过去的上下文信息和未来的上下文信息,这对语句的序列标注是非常有益的。然后在解码层引入注意力机制,使得解码生成标注序列时可以得到前面编码阶段每个字符隐藏层的信息向量,充分利用输入序列携带的信息。最后通过softmax计算每个词的实体标签化概率,可有效得出最终的标注序列并进行实体及其对应关系的组合。

技术领域

本发明属于自然语言处理技术领域,尤其涉及一些序列标注和深度学习的注意力机制联合抽取非结构文本中的实体关系。

背景技术

随着大数据时代的来临,各种信息充斥着我们的生活,而大部分都是杂乱无章的数据或者非结构的自然语言文本,要从中抽取出有用的信息就显得尤为重要。信息抽取一般包括两个紧密联系的子任务即实体识别和关系抽取,其根本目标就是从无结构的网络或领域文本中挖掘命名实体以及实体之间的语义关系,抽取出信息并进行结构化存储,以便于人们直观地理解、接受信息。实体关系抽取同时也是自然语言处理中的一项重要任务,它在多个领域都有涉及,例如,领域知识图谱的构建、信息检索、机器翻译、自动问答等,都具有较强的支撑作用,因而具有较大的研究价值与研究意义。

根据对标注数据的依赖程度,实体关系抽取方法可分为有监督学习方法、半监督学习方法、无监督学习方法和开放式抽取方法。有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征。而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果。最近,很多研究人员开始将深度学习的技术应用到关系抽取中。Rink等人首先提取出实体,然后识别它们之间的关系,这个分离的框架使得两个任务都易于处理并且更加灵活。Socher等人提出使用递归神经网络和句法结构来解决关系抽取问题。该方法通过递归神经网络,首先对语句进行句法解析并构造出一个句法树,按照语句的句法结构迭代合并,最终得到该语句的向量表示。该方法能够有效地考虑语句的句法结构信息,但无法很好地考虑两个实体在语句中的位置和语义信息。Zeng等人提出采用卷积神经网络进行实体关系抽取。他们将词的位置向量和词向量作为卷积神经网络的输入,并在特征中加入实体的位置向量和其他相关的词汇,使得语句中的实体信息能够被较好地应用到关系抽取中。但是以上这种将实体识别和关系抽取分开实现的方法忽视了两者之间的内在联系。Zheng等人提出了一种端到端的实体关系联合抽取方法,将联合抽取转换成序列标注问题,通过长短时记忆网络对问句进行编码和解码,并添加偏置损耗最终得到标注序列。这种算法充分利用了上下文信息,但是应用在英文数据集上,与中文语料有很大的不同,并且当输入序列非常长时模型难以学到合理的向量表示,对所有的上下文信息没有区分,这就限制了模型的性能,导致模型的效果较差。

发明内容

本发明要解决的技术问题是,提出一种基于注意力机制(ATT)的序列标注联合抽取实体关系的方法,首先根据Zheng等人提出的新标注模式,将自然语言语句作为Seq2Seq的输入序列,经过embedding层将单词转换成向量表示,并使用双向长短时记忆网络(LSTM)对其进行编码,在原标注模式的基础上加入对关系的标注,然后在同样使用长短时记忆网络对进行解码时加入注意力机制,最后通过softmax层得到标注的序列,并输出,这样就可以得到对整个语句的标注序列,便于通过序列的识别抽取实体关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811157788.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top