[发明专利]一种多关系的同步抽取方法在审
申请号: | 202110820329.2 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113486181A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 傅啸;康文涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F16/28;G06N20/20 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 同步 抽取 方法 | ||
1.一种多关系的同步抽取方法,其特征在于在整合数据集中的关系对后,改进抽取方式:采用先识别句中的主体和关系,再抽取客体的方式,达到多关系抽取同步抽取;同时采用联合抽取的方式,通过共享编码层,模型能够学习到两个任务之间的潜在全局信息,提高模型性能。
2.根据权利要求1所述的一种多关系的同步抽取方法,其特征在于具体实现步骤如下:
步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;
步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;
步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;
步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;
步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。
3.根据权利要求2所述的一种多关系的同步抽取方法,其特征在于步骤1具体实现步骤如下:
1-1获取现有公开的互联网语料库;
1-2构建数据集,其具体步骤如下:
1-2-1定义关系类型,具体参考行业内对于关系类型定义的规则规范;
1-2-2对关系进行标注;
对于存在关系的文本数据,可从中得到三元组(实体1,关系,实体2);根据步骤1-2-1定义的关系类型,采用人工标注的方法,对互联网语料库中的实体和关系进行标注,生成文本,关系格式的数据集;
1-2-3数据集拆分;
将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
4.根据权利要求3所述的一种多关系的同步抽取方法,其特征在于步骤2具体实现步骤如下:
2-1对于数据集中的文本数据,数据预处理包含以下步骤:
2-1-1数据清洗,删除文本数据中的非法字符、空格、换行符;
2-1-2以字为粒度对文本数据分割,构建字典;
构建的字典D={d1,d2,...,dn};其中n为字典的总长度,di表示字典中第i个字;因此一段文本数据S可以表示为其中in表示文本数据S中第n个字在字典D中的索引,从而可用字典索引重新表示文本数据S={i1,i2,...,in};
2-2对于数据集中的关系数据,数据预处理步骤如下:
2-2-1将关系使用SPO三元组格式进行表示;S、P、O分别表示主体、关系和客体;
2-2-2将主体和关系相同的SPO三元组中的客体进行合并,形成S,P,O1,O2,...,On格式的训练样本;如果存在多个主体S或多个关系P,则形成多个训练样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110820329.2/1.html,转载请声明来源钻瓜专利网。