[发明专利]一种学术链节点的智能识别方法有效

专利信息
申请号: 202010534572.3 申请日: 2020-06-12
公开(公告)号: CN111666472B 公开(公告)日: 2023-03-28
发明(设计)人: 郑远攀;陈广玉;王泽宇;吴庆岗 申请(专利权)人: 郑州轻工业大学
主分类号: G06F16/951 分类号: G06F16/951;G06F16/33;G06F40/295
代理公司: 郑州优盾知识产权代理有限公司 41125 代理人: 张真真
地址: 450002 *** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 学术 节点 智能 识别 方法
【权利要求书】:

1.一种学术链节点的智能识别方法,其特征在于,其步骤如下:

S1、用户根据检索需要确定检索主题词,按照被引频次降序在科技文献数据库网站上检索文献数据,得到文献列表链接A={a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)={b(1),b(2),…,b(j),…,b(li)},其中,k表示文献列表的数量,li施引文献列表的数量;

S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取,将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中,其中,n≤k;

S3、对于文献链接a(i)和施引文献列表链接B(i),抽取施引文献链接b(j)中与文献链接a(i)中相关的语句;

S4、利用自然语言处理方法对步骤S3中得到的语句进行三要素识别,其中,三要素包括标志词、作者名、时间词;

S5、如果三要素均存在,则将三要素保存为文献链接a(i)的节点信息,并计算文献链接a(i)的学术评价指标F1,否则,执行步骤S6;

S6、j=j+1,如果j≤li,循环执行步骤S3至S6,否则,计算文献链接a(i)的学术评价指标F2、F3,执行步骤S7;

S7、i=i+1,如果i≤n,循环执行步骤S3至S7,否则,文献列表链接A中的所有文献链接被爬取完成,得到文献列表链接A中的所有文献链接的节点信息。

2.根据权利要求1所述的学术链节点的智能识别方法,其特征在于,所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为:

S41、模糊匹配标志词:

S41.1、将英文输入文本格式转化为字符串数组,数组中的每一个元素对应一个英文单词;

S41.2、将滑动距离设为1,滑动窗口的长度为N,将字符串数组从左到右依次滑动得到M组候选词组,其中,N表示标志词词典中所有词的最大长度;

S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配;模糊匹配是指将候选词组与标志词词典中的词进行匹配,因候选词组中的词的长度均为N,而标志词词典中的词的长度为1~N,故将所有词进行左对齐匹配,如果候选词组的前n个单词与词典中的某个长度为n的标志词相同,即视为匹配成功,候选词组的后N-n个词不做匹配工作,其中,1≤n≤N;

S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功,执行步骤S42,进行作者名和时间词的识别;若匹配失败,则删除语句;

S42、作者名、时间词的识别:

S42.1、数据集的获取:在学术论文数据库中爬取的不同领域的学术论文,对学术论文进行文本预处理;

S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注,得到数据集,其中,命名实体包括作者名、时间词;

S42.3、分析作者名和时间词的特征信息,并利用特征信息构造特征函数,借助特征信息构造特征模板,通过训练确定每种特征信息的权重,合理的标记在训练样本中,特征信息出现的次数多,对应的权重就高,其中,特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法等;

S42.4、将特征函数融入CRF模型中,得到改进的CRF模型;

S42.5、随机选取数据集中的一部分数据作为训练集,将训练集输入改进的CRF模型中进行训练,得到命名实体识别模型;

S42.6、将数据集中的其余数据作为测试集,并将测试集输入命名实体识别模型中进行测试,重复执行步骤S42.5,得到最优的识别模型;

S42.7、将语句输入最优的识别模型中进行识别,输出作者名和时间词。

3.根据权利要求2所述的学术链节点的智能识别方法,其特征在于,所述命名实体识别模型为:

其中:X为观测序列,Y为输出标注序列,λj是特征函数Fj(Y,X)的权重,1/Z(X)是归一化因子。

4.根据权利要求3所述的学术链节点的智能识别方法,其特征在于,所述特征函数Fj(Y,X)包含了转移函数和状态函数,则命名实体识别模型转化为:

其中,λk为转移函数的权值,μl为状态函数的权值,tk(yi-1,yi,i)为转移函数,sl(yi,X,i)为状态函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010534572.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top