[发明专利]一种多关系的同步抽取方法在审

申请号：	202110820329.2	申请日：	2021-07-20
公开（公告）号：	CN113486181A	公开（公告）日：	2021-10-08
发明（设计）人：	傅啸;康文涛	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/216;G06F16/28;G06N20/20
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种关系同步抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多关系的同步抽取方法。本发明具体实现步骤如下：步骤1：获取互联网语料库，并将其整理得到文本，关系格式的数据集；步骤2：对数据进行预处理，主要对所得数据集进行清洗和结构化整理，以便后续作为模型的输入；步骤3：构建关系抽取模型；该模型由主体关系抽取模型和客体抽取模型两部分组成；步骤4：关系抽取模型的训练；通过梯度下降算法，求得损失函数的最小化来训练模型；步骤5：模型预测；对需要预测的文本内容，利用求得的概率的最大值来确定文本包含的关系；使用维特比算法，得到文本的主体标注序列、客体标注序列。本发明将相同主体和关系合并，有助于减少计算次数，提升模型的运行效率并改善表现。

技术领域

本发明属于信息抽取(information extraction)中的关系抽取领域，主要提出了一种多关系的同步抽取方法。

背景技术

信息抽取主要是将自然语言结构化处理，而关系抽取是信息抽取领域的重要组成部分，旨在识别文本中出现的关系三元组(头实体，关系类型，尾实体)知识。常见的深度学习关系抽取主要有管道式抽取和联合抽取两种方式。管道式抽取一般将实体识别和关系抽取当作两个独立的子任务，先识别出文本中存在的实体，再将实体两两配对，判断两者是否存在关系、存在何种关系。联合抽取则将两个子任务合并到一个联合模型中进行训练，通过端到端模型同时识别实体及其关系。

目前，关系抽取领域存在一些难点有待攻克。比如，对于给定的一段文本，句中的关系事实往往比较复杂，比如某一实体可能同时出现在多个关系对中，待识别关系和实体数量呈平方关系，计算复杂度高。另外，以往模型在引入新的关系类型时，大多需要重新调整模型、从零开始训练，因此模型的灵活性较差，难以适应实际应用中复杂的需求变化。

发明内容

本发明旨在解决关系重叠问题以及实体冗余过多、计算量较大的问题，增强模型在复杂语境下的识别抽取能力，并提升信息抽取的准确率和效率。本发明在整合数据集中的关系对后，对抽取方式进行了改进，采用先识别句中的主体和关系，再抽取客体的方式，达到多关系抽取同步抽取。同时采用联合抽取的方式，通过共享编码层，模型能够学习到两个任务之间的潜在全局信息，有助于提高模型性能。

本发明具体实现步骤如下：

步骤1：获取互联网语料库，并将其整理得到文本，关系格式的数据集；

步骤2：对数据进行预处理，主要对所得数据集进行清洗和结构化整理，以便后续作为模型的输入；

步骤3：构建关系抽取模型；该模型由主体关系抽取模型和客体抽取模型两部分组成；

步骤4：关系抽取模型的训练；通过梯度下降算法，求得损失函数的最小化来训练模型；

步骤5：模型预测；对需要预测的文本内容，利用求得的概率的最大值来确定文本包含的关系；使用维特比算法，得到文本的主体标注序列、客体标注序列。

进一步的，步骤1具体实现步骤如下：

1-1获取现有公开的互联网语料库；

1-2构建数据集，其具体步骤如下：

1-2-1定义关系类型，具体参考行业内对于关系类型定义的规则规范；

1-2-2对关系进行标注；

对于存在关系的文本数据，可从中得到三元组(实体1,关系,实体2)；根据步骤1-2-1定义的关系类型，采用人工标注的方法，对互联网语料库中的实体和关系进行标注，生成文本，关系格式的数据集；