[发明专利]一种基于注意力机制的序列标注联合抽取实体关系的方法在审

专利信息
申请号: 201811157788.1 申请日: 2018-09-30
公开(公告)号: CN109408812A 公开(公告)日: 2019-03-01
发明(设计)人: 刘博;张佳慧;史超 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06K9/62;G06N3/04
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 沈波
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于注意力机制的序列标注联合抽取实体关系的方法,先将海量的中文语句语料进行去噪等预处理,然后进行分词,对单个的词语转换成向量表示,这样作为双向长短时记忆网络的输入对单字进行编码。使用双向长短时记忆网络不仅可以学习长期和短期依赖信息,还可以同时将输入层的数据经过向前和向后两个方向推算,从而学习过去的上下文信息和未来的上下文信息,这对语句的序列标注是非常有益的。然后在解码层引入注意力机制,使得解码生成标注序列时可以得到前面编码阶段每个字符隐藏层的信息向量,充分利用输入序列携带的信息。最后通过softmax计算每个词的实体标签化概率,可有效得出最终的标注序列并进行实体及其对应关系的组合。
搜索关键词: 注意力机制 序列标注 上下文信息 解码 记忆网络 实体关系 语句 标注 抽取 预处理 单字 编码阶段 词语转换 方向推算 实体标签 输入序列 向量表示 信息向量 过去的 输入层 隐藏层 分词 去噪 向后 语料 联合 携带 学习 引入 概率 中文
【主权项】:
1.一种基于注意力机制的序列标注联合抽取实体关系的方法,其特征在于:该方法包括以下步骤:步骤1、获取开放领域的实体关系数据集并进行预处理,预处理的过程是将该数据集分为训练集和测试集两部分,这两部分都包含待处理的语句,对其中包含的语句进行分词处理,使得语句转化为单独的词;步骤2、将预处理后得到语句中的每个词经过嵌入层转换成向量表示,并输入到双向长短时记忆网络的编码层中进行编码;步骤3、将编码层得到的输出经过带注意力机制的长短时记忆网络解码,并在其中加入注意力机制;步骤4、经过softmax层基于标注预测向量输出实体标签化概率,补全和组合实体和关系,得到三元组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811157788.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top