[发明专利]一种在线资源相关信息抽取的知识图谱生成方法有效

专利信息
申请号: 202011193522.X 申请日: 2020-10-30
公开(公告)号: CN112287119B 公开(公告)日: 2022-10-18
发明(设计)人: 冯冲;赵赫;唐雨馨 申请(专利权)人: 北京理工大学
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 在线 资源 相关 信息 抽取 知识 图谱 生成 方法
【说明书】:

发明提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span的表示,从而将实体抽取和关系抽取两个任务转化为基于span表示的分类计算问题,将两个任务的目标函数通过加权得到联合目标函数,进而利用多任务学习策略进行联合训练。通过将训练好的信息抽取模型应用在大规模的科技文献语料中,生成在线资源的知识图谱。该方法解决了实体和关系抽取对在线资源属性描述刻画不足的问题,减少了构建在线资源知识图谱的人工成本,提高了知识图谱生成效率。

技术领域

本发明涉及一种在线资源相关信息抽取的知识图谱生成方法,涉及自然语言处理中的信息抽取技术领域。

背景技术

目前,科技文献中的元数据信息抽取问题得到了越来越多的关注,然而除了普遍的关键词、文献引用、科技实体以及实体关系外,科技文献中的在线资源作为另外一种重要元数据信息,到目前为止还没有受到足够的重视。

伴随着科技文献规模的不断扩大,如今在文献中被引用的在线资源数量也正在迅速地增长,如何从海量的现有文献和不断产生的最新文献中发现、追踪并了解这些在线资源,已然成为了一个极富有挑战性的问题。从应用角度出发,对在线科技资源进行深入的分析和理解能够帮助科研人员快速掌握有关资源的基本信息,了解资源的种类、用途以及其他研究对于该资源的利用情况,从而帮助科研人员迅速定位到能够帮助解决其研究问题的在线资源,或对多个在线资源进行对比来选择最适合的资源,极大地加快了科研工作的进程和效率。此外,基于对在线科技资源的全面分析和深度理解,能够帮助开发出具备有效性和实用性的科学研究辅助工具,如在线科技资源百科知识库、在线科技资源搜索引擎和检索系统、在线科技资源个性化推荐系统等。

现有技术中,近几年来已有一些来自工业界的团队开发出专门面向在线资源的搜索、百科等系统工具,如谷歌数据集搜索引擎(Google Dataset Search)等。在该搜索引擎的开发过程中,核心问题是对数据集的相关信息进行深层次的理解与刻画。然而,现有的工业界应用仍旧主要面向“科研数据集”这一种在线科技资源,还有许多其他种类的在线科技资源,如科研问题、算法模型、工具软件、帮助文档等没有得到充分的关注。另外一些技术基于对有限数量的科技文献进行分析,并通过人工总结的方式构建规则,从而对科技文献文本中的在线资源名称、种类或功能等信息进行抽取。这类基于人工总结规则的方法需要消耗大量的人工成本,且总结得到的规则无法做到适用于全部科技文献,从而导致信息抽取的准确率和召回率难以保证。此外,现有的一些科技信息抽取技术大多从科技文献摘要中抽取一般的科技实体或关系,而在线资源分布在文献正文中,对资源的引用处上下文的内容和文本语义更加复杂,且在线资源的种类与一般实体的种类有很大不同,这使得现有的科技信息抽取技术难以适用于在线资源相关的信息抽取。

发明内容

本发明旨在解决使用现有实体和关系抽取技术对科技文献中的在线资源相关信息抽取准确度有限的问题,且相关技术对在线资源属性的描述刻画不足,以及通过人工方式构建在线资源知识图谱费时费力的问题,提出了一种在线资源相关信息抽取的知识图谱生成方法。

为达到上述目的,本发明采用如下技术方案:

所述在线资源相关信息抽取的知识图谱生成方法中涉及如下定义:

定义1:上下文句子s,其表达式为:{s=w1,w2,...,wN},含义为一个包含资源实体的科技文献句子,该句子中有N个单词w1,w2,...,wN

其中,下标N为句子单词序列长度,w代表单词;

定义2:目标资源实体res,其表达式为:res=(rs,re),含义为:给定科技文献句子的包含目标引用的单词序列

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011193522.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top