[发明专利]一种在线资源相关信息抽取的知识图谱生成方法有效
申请号: | 202011193522.X | 申请日: | 2020-10-30 |
公开(公告)号: | CN112287119B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 冯冲;赵赫;唐雨馨 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 在线 资源 相关 信息 抽取 知识 图谱 生成 方法 | ||
1.一种在线资源相关信息抽取的知识图谱生成方法,其特征在于:包括以下步骤:
步骤1)对于输入的包含有在线资源引用的科技文献句子,即上下文句子s,由span生成器在科技文献句子上进行n-gram枚举得到候选span的集合;其中上下文句子s,其表达式为:{s=w1,w2,...,wN},用于表示一个包含资源实体的科技文献句子,该句子中有N个单词w1,w2,...,wN;下标N为句子单词序列长度,w代表单词;
步骤2)基于BERT编码器对步骤1)中的科技文献句子进行单词token的文本表示,并输出token的文本表示以及整个句子的文本表示;
步骤3)在步骤2)基础上通过结合token的文本表示、span长度大小及整个句子的文本表示得到span集合中每个候选span的文本表示;
步骤3)中,token的文本表示为用向量表示的token文本,span长度大小为一个span包含的单词个数,整个句子的文本表示为用向量表示的整个句子;
步骤4)构建在线资源相关科技实体抽取任务的目标函数该目标函数用于训练,训练目标为对每个候选span的文本表示进行分类,即判断每个span所属的实体类别或判断其为非正确科技实体;
步骤5)构建资源-实体关系抽取任务的目标函数该目标函数用于训练,训练目标为基于输入的所述在线资源引用的科技文献句子中包含的目标资源实体res判断span与目标资源实体之间的关系R或判断为span与目标资源实体之间不存在关系;其中,目标资源实体res,其表达式为:res=(rs,re),其中,给定科技文献句子的包含目标引用的单词序列其中rs和re分别代表起始单词索引和结束单词索引;资源-实体关系R:表达式为R={(res,term,Cr)∪(term,res,Cr)|term∈T},用于表示在线资源相关科技实体集合T中的每个在线资源相关科技实体term与目标资源实体res之间的关系,Cr为资源-实体关系R的类别,下标r代表资源;T表达式为:T={(i,j,Ct)|1≤i≤j≤n;j-i+1≤L},用于表示:给定的在线资源所属关系组的属性描述,每个在线资源对应多个在线资源相关科技实体term;i和j为序列中的单词索引,Ct为在线资源相关科技实体的类别,L表示在线资源相关科技实体的最大长度;
步骤6)基于span的文本表示,以及步骤4)和步骤5)中构建出的在线资源相关科技实体抽取以及资源-实体关系抽取两个任务的目标函数,通过多任务学习,即通过使用共享span的文本表示并行训练两个任务,基于加权构建在线资源相关科技实体抽取任务和资源-实体关系抽取任务的联合目标函数进行联合训练,λT和λR为平衡两个任务的超参数,学习两个任务之间的潜在影响关系,得到训练好的在线资源相关信息抽取模型;
步骤7)生成在线资源知识图谱,具体为:输入大量科技文献,基于步骤6)训练好的在线资源相关信息抽取模型,抽取出科技文献中全部的在线资源相关科技实体和资源-实体关系,将每一种在线资源与科技实体之间的关系作为在线资源的一种属性,并对抽取出的信息进行整合形成自我中心网络,即生成在线资源知识图谱。
2.根据权利要求1所述的一种在线资源相关信息抽取的知识图谱生成方法,其特征在于:步骤7)中,自我中心网络,即ego network。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011193522.X/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置