[发明专利]一种多关系的同步抽取方法在审
申请号: | 202110820329.2 | 申请日: | 2021-07-20 |
公开(公告)号: | CN113486181A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 傅啸;康文涛 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F16/28;G06N20/20 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关系 同步 抽取 方法 | ||
本发明公开了一种多关系的同步抽取方法。本发明具体实现步骤如下:步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。本发明将相同主体和关系合并,有助于减少计算次数,提升模型的运行效率并改善表现。
技术领域
本发明属于信息抽取(information extraction)中的关系抽取领域,主要提出了一种多关系的同步抽取方法。
背景技术
信息抽取主要是将自然语言结构化处理,而关系抽取是信息抽取领域的重要组成部分,旨在识别文本中出现的关系三元组(头实体,关系类型,尾实体)知识。常见的深度学习关系抽取主要有管道式抽取和联合抽取两种方式。管道式抽取一般将实体识别和关系抽取当作两个独立的子任务,先识别出文本中存在的实体,再将实体两两配对,判断两者是否存在关系、存在何种关系。联合抽取则将两个子任务合并到一个联合模型中进行训练,通过端到端模型同时识别实体及其关系。
目前,关系抽取领域存在一些难点有待攻克。比如,对于给定的一段文本,句中的关系事实往往比较复杂,比如某一实体可能同时出现在多个关系对中,待识别关系和实体数量呈平方关系,计算复杂度高。另外,以往模型在引入新的关系类型时,大多需要重新调整模型、从零开始训练,因此模型的灵活性较差,难以适应实际应用中复杂的需求变化。
发明内容
本发明旨在解决关系重叠问题以及实体冗余过多、计算量较大的问题,增强模型在复杂语境下的识别抽取能力,并提升信息抽取的准确率和效率。本发明在整合数据集中的关系对后,对抽取方式进行了改进,采用先识别句中的主体和关系,再抽取客体的方式,达到多关系抽取同步抽取。同时采用联合抽取的方式,通过共享编码层,模型能够学习到两个任务之间的潜在全局信息,有助于提高模型性能。
本发明具体实现步骤如下:
步骤1:获取互联网语料库,并将其整理得到文本,关系格式的数据集;
步骤2:对数据进行预处理,主要对所得数据集进行清洗和结构化整理,以便后续作为模型的输入;
步骤3:构建关系抽取模型;该模型由主体关系抽取模型和客体抽取模型两部分组成;
步骤4:关系抽取模型的训练;通过梯度下降算法,求得损失函数的最小化来训练模型;
步骤5:模型预测;对需要预测的文本内容,利用求得的概率的最大值来确定文本包含的关系;使用维特比算法,得到文本的主体标注序列、客体标注序列。
进一步的,步骤1具体实现步骤如下:
1-1获取现有公开的互联网语料库;
1-2构建数据集,其具体步骤如下:
1-2-1定义关系类型,具体参考行业内对于关系类型定义的规则规范;
1-2-2对关系进行标注;
对于存在关系的文本数据,可从中得到三元组(实体1,关系,实体2);根据步骤1-2-1定义的关系类型,采用人工标注的方法,对互联网语料库中的实体和关系进行标注,生成文本,关系格式的数据集;
1-2-3数据集拆分;
将数据集中的所有文本数据拆分成两部分,其中85%作为训练集,15%作为测试集,分别用于模型的训练和测试。
进一步的,步骤2具体实现步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110820329.2/2.html,转载请声明来源钻瓜专利网。