[发明专利]一种基于预训练语言模型的科技资源关系抽取方法及装置在审
申请号: | 202110251129.X | 申请日: | 2021-03-08 |
公开(公告)号: | CN112989813A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 张辉;王本成;葛胤池;金盛豪;王德庆 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/33;G06F16/36;G06N20/00 |
代理公司: | 北京汲智翼成知识产权代理事务所(普通合伙) 11381 | 代理人: | 陈曦;任佳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 语言 模型 科技 资源 关系 抽取 方法 装置 | ||
本发明公开了一种基于预训练语言模型的科技资源关系抽取方法及装置。该方法包括如下步骤:将待关系分类的科技资源语句,输入到基于预训练语言模型训练好的科技资源关系抽取模型中;科技资源关系抽取模型输出的结果为该科技资源语句中两个实体之间的关系类别。本发明基于海量无监督数据训练的预训练语言模型,可以提供更加高效的语言特征学习能力,同时避免了使用外部预训练词向量带来的多义词问题。并且,结合度量学习方法,将科技资源关系抽取问题与小样本学习问题相结合,旨在通过学习少量的训练数据,实现较强的关系抽取能力,在标注数据较为匮乏的情况下也可以达到不错的关系分类效果。
技术领域
本发明涉及一种基于预训练语言模型的科技资源关系抽取方法,同时也涉及相应的科技资源关系抽取装置,属于自然语言处理技术领域。
背景技术
在科技资源知识图谱的构建过程中,需要从大量文本中抽取有用的知识,主要是文本中的实体以及实体间的关系。命名实体识别是信息抽取的一个子任务,旨在从文本数据中识别特定意义的实体,通常包含人名、地名、机构名、领域名词等。关系抽取是在识别出文本中的相关实体之后,信息抽取任务还需要抽取任意两个实体之间的语义关系,例如:
In the morning,the President traveled to Detroit.
其中,实体“President”和“Detroit”在语义上属于实体-目的地的关系。文本中含有已标注的实体(entity),可分别记为e1=President,e2=Detroit。对于该文本,关系抽取任务的目标是自动识别出其表达的是e1与e2之间的“实体-目的地关系”。
目前,已有很多模型用以实现实体关系抽取任务,包括基于特征的传统机器学习模型和深度学习模型。传统机器学习模型严重依赖特征的质量,并且特征工程费时费力。深度学习模型的效果受训练数据的规模大小的影响,然而在关系抽取领域所存在的数据集的规模都较小,精确标注训练数据的工作量同样巨大。
发明内容
本发明所要解决的首要技术问题在于提供一种基于预训练语言模型的科技资源关系抽取方法。
本发明所要解决的另一技术问题在于提供一种基于预训练语言模型的科技资源关系抽取装置。
为了实现上述目的,本发明采用下述的技术方案:
根据本发明实施例的第一方面,提供一种基于预训练语言模型的科技资源关系抽取方法,包括如下步骤:
步骤S1、将待关系分类的科技资源语句,输入到基于预训练语言模型训练好的科技资源关系抽取模型中;
步骤S2、所述科技资源关系抽取模型输出的结果为所述科技资源语句中两个实体之间的关系类别。
其中较优地,所述科技资源关系抽取模型通过如下步骤得到;
步骤S11、构建科技资源数据集,其中,所述科技资源数据集包括多个关系类别,每个所述关系类别包括多个符合条件的语句;
步骤S12、通过C-Way K-shot算法从所述科技资源数据集中采样得到支持集和查询集;
步骤S13、将所述支持集中的语句逐个输入到预训练语言模型中,得到各个关系类别中的语句映射到低维嵌入空间中的向量表示序列,并根据该向量表示序列,计算出各个关系类别的原型中心;
步骤S14、将所述查询集中的语句逐个输入到所述预训练语言模型中,得到其映射到低维嵌入空间中的向量表示后,计算每个语句对应的预训练语言模型的损失函数值,并根据损失函数值更新预训练语言模型的参数;
步骤S15、循环执行步骤S12~S14,直到达到终止训练条件时,结束训练并得到所述科技资源关系抽取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110251129.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息查找方法、装置及设备
- 下一篇:对象推荐方法、装置、电子设备和存储介质