[发明专利]一种多关系的同步抽取方法在审

专利信息
申请号: 202110820329.2 申请日: 2021-07-20
公开(公告)号: CN113486181A 公开(公告)日: 2021-10-08
发明(设计)人: 傅啸;康文涛 申请(专利权)人: 杭州电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/216;G06F16/28;G06N20/20
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 关系 同步 抽取 方法
【权利要求书】:

1.一种多关系的同步抽取方法,其特征在于在整合数据集中的关系对后,改进抽取方式:采用先识别句中的主体和关系,再抽取客体的方式,达到多关系抽取同步抽取;同时采用联合抽取的方式,通过共享编码层,模型能够学习到两个任务之间的潜在全局信息,提高模型性能。

2.根据权利要求1所述的一种多关系的同步抽取方法,其特征在于具体实现步骤如下:

步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;

步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;

步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;

步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;

步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。

3.根据权利要求2所述的一种多关系的同步抽取方法,其特征在于步骤1具体实现步骤如下:

1-1获取现有公开的互联网语料库;

1-2构建数据集,其具体步骤如下:

1-2-1定义关系类型,具体参考行业内对于关系类型定义的规则规范;

1-2-2对关系进行标注;

对于存在关系的文本数据,可从中得到三元组(实体1,关系,实体2);根据步骤1-2-1定义的关系类型,采用人工标注的方法,对互联网语料库中的实体和关系进行标注,生成文本,关系格式的数据集;

1-2-3数据集拆分;

将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。

4.根据权利要求3所述的一种多关系的同步抽取方法,其特征在于步骤2具体实现步骤如下:

2-1对于数据集中的文本数据,数据预处理包含以下步骤:

2-1-1数据清洗,删除文本数据中的非法字符、空格、换行符;

2-1-2以字为粒度对文本数据分割,构建字典;

构建的字典D={d1,d2,...,dn};其中n为字典的总长度,di表示字典中第i个字;因此一段文本数据S可以表示为其中in表示文本数据S中第n个字在字典D中的索引,从而可用字典索引重新表示文本数据S={i1,i2,...,in};

2-2对于数据集中的关系数据,数据预处理步骤如下:

2-2-1将关系使用SPO三元组格式进行表示;S、P、O分别表示主体、关系和客体;

2-2-2将主体和关系相同的SPO三元组中的客体进行合并,形成S,P,O1,O2,...,On格式的训练样本;如果存在多个主体S或多个关系P,则形成多个训练样本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110820329.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top