[发明专利]一种多关系的同步抽取方法在审

专利信息
申请号: 202110820329.2 申请日: 2021-07-20
公开(公告)号: CN113486181A 公开(公告)日: 2021-10-08
发明(设计)人: 傅啸;康文涛 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F16/28;G06N20/20
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 关系 同步 抽取 方法
【说明书】:

发明公开了一种多关系的同步抽取方法。本发明具体实现步骤如下:步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。本发明将相同主体和关系合并,有助于减少计算次数,提升模型的运行效率并改善表现。

技术领域

本发明属于信息抽取(information extraction)中的关系抽取领域,主要提出了一种多关系的同步抽取方法。

背景技术

信息抽取主要是将自然语言结构化处理,而关系抽取是信息抽取领域的重要组成部分,旨在识别文本中出现的关系三元组(头实体,关系类型,尾实体)知识。常见的深度学习关系抽取主要有管道式抽取和联合抽取两种方式。管道式抽取一般将实体识别和关系抽取当作两个独立的子任务,先识别出文本中存在的实体,再将实体两两配对,判断两者是否存在关系、存在何种关系。联合抽取则将两个子任务合并到一个联合模型中进行训练,通过端到端模型同时识别实体及其关系。

目前,关系抽取领域存在一些难点有待攻克。比如,对于给定的一段文本,句中的关系事实往往比较复杂,比如某一实体可能同时出现在多个关系对中,待识别关系和实体数量呈平方关系,计算复杂度高。另外,以往模型在引入新的关系类型时,大多需要重新调整模型、从零开始训练,因此模型的灵活性较差,难以适应实际应用中复杂的需求变化。

发明内容

本发明旨在解决关系重叠问题以及实体冗余过多、计算量较大的问题,增强模型在复杂语境下的识别抽取能力,并提升信息抽取的准确率和效率。本发明在整合数据集中的关系对后,对抽取方式进行了改进,采用先识别句中的主体和关系,再抽取客体的方式,达到多关系抽取同步抽取。同时采用联合抽取的方式,通过共享编码层,模型能够学习到两个任务之间的潜在全局信息,有助于提高模型性能。

本发明具体实现步骤如下:

步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;

步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;

步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;

步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;

步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。

进一步的,步骤1具体实现步骤如下:

1-1获取现有公开的互联网语料库;

1-2构建数据集,其具体步骤如下:

1-2-1定义关系类型,具体参考行业内对于关系类型定义的规则规范;

1-2-2对关系进行标注;

对于存在关系的文本数据,可从中得到三元组(实体1,关系,实体2);根据步骤1-2-1定义的关系类型,采用人工标注的方法,对互联网语料库中的实体和关系进行标注,生成文本,关系格式的数据集;

1-2-3数据集拆分;

将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。

进一步的,步骤2具体实现步骤如下:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110820329.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top