[发明专利]一种学术链节点的智能识别方法有效
申请号: | 202010534572.3 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111666472B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 郑远攀;陈广玉;王泽宇;吴庆岗 | 申请(专利权)人: | 郑州轻工业大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/33;G06F40/295 |
代理公司: | 郑州优盾知识产权代理有限公司 41125 | 代理人: | 张真真 |
地址: | 450002 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 学术 节点 智能 识别 方法 | ||
1.一种学术链节点的智能识别方法,其特征在于,其步骤如下:
S1、用户根据检索需要确定检索主题词,按照被引频次降序在科技文献数据库网站上检索文献数据,得到文献列表链接A={a(1),a(2),…,a(i),…,a(k)}以及文献链接a(i)对应的施引文献列表链接B(i)={b(1),b(2),…,b(j),…,b(li)},其中,k表示文献列表的数量,li施引文献列表的数量;
S2、对步骤S1中的文献列表链接A中的所有文献链接进行爬取,将文献链接对应的文章被引频次大于0的文献列表链接A中的前n个文献链接a(i)以及施引文献列表链接B(i)保存至待深度爬取的URL队列组合{a(i),B(i)}中,其中,n≤k;
S3、对于文献链接a(i)和施引文献列表链接B(i),抽取施引文献链接b(j)中与文献链接a(i)中相关的语句;
S4、利用自然语言处理方法对步骤S3中得到的语句进行三要素识别,其中,三要素包括标志词、作者名、时间词;
S5、如果三要素均存在,则将三要素保存为文献链接a(i)的节点信息,并计算文献链接a(i)的学术评价指标F1,否则,执行步骤S6;
S6、j=j+1,如果j≤li,循环执行步骤S3至S6,否则,计算文献链接a(i)的学术评价指标F2、F3,执行步骤S7;
S7、i=i+1,如果i≤n,循环执行步骤S3至S7,否则,文献列表链接A中的所有文献链接被爬取完成,得到文献列表链接A中的所有文献链接的节点信息。
2.根据权利要求1所述的学术链节点的智能识别方法,其特征在于,所述步骤S4中利用自然语言处理方法对步骤S3中得到的语句进行三要素识别的方法为:
S41、模糊匹配标志词:
S41.1、将英文输入文本格式转化为字符串数组,数组中的每一个元素对应一个英文单词;
S41.2、将滑动距离设为1,滑动窗口的长度为N,将字符串数组从左到右依次滑动得到M组候选词组,其中,N表示标志词词典中所有词的最大长度;
S41.3、将M组候选词组分别与标志词词典中的词进行模糊匹配;模糊匹配是指将候选词组与标志词词典中的词进行匹配,因候选词组中的词的长度均为N,而标志词词典中的词的长度为1~N,故将所有词进行左对齐匹配,如果候选词组的前n个单词与词典中的某个长度为n的标志词相同,即视为匹配成功,候选词组的后N-n个词不做匹配工作,其中,1≤n≤N;
S41.4、若M组候选词组中有一组候选词组与标志词词组匹配成功,执行步骤S42,进行作者名和时间词的识别;若匹配失败,则删除语句;
S42、作者名、时间词的识别:
S42.1、数据集的获取:在学术论文数据库中爬取的不同领域的学术论文,对学术论文进行文本预处理;
S42.2、采用BIOES标注方法定义的标签集对预处理后的学术论文进行命名实体标注,得到数据集,其中,命名实体包括作者名、时间词;
S42.3、分析作者名和时间词的特征信息,并利用特征信息构造特征函数,借助特征信息构造特征模板,通过训练确定每种特征信息的权重,合理的标记在训练样本中,特征信息出现的次数多,对应的权重就高,其中,特征信息包括标点符号、关键字、指示词、方向词、位置词、中心词、词性和句法等;
S42.4、将特征函数融入CRF模型中,得到改进的CRF模型;
S42.5、随机选取数据集中的一部分数据作为训练集,将训练集输入改进的CRF模型中进行训练,得到命名实体识别模型;
S42.6、将数据集中的其余数据作为测试集,并将测试集输入命名实体识别模型中进行测试,重复执行步骤S42.5,得到最优的识别模型;
S42.7、将语句输入最优的识别模型中进行识别,输出作者名和时间词。
3.根据权利要求2所述的学术链节点的智能识别方法,其特征在于,所述命名实体识别模型为:
其中:X为观测序列,Y为输出标注序列,λj是特征函数Fj(Y,X)的权重,1/Z(X)是归一化因子。
4.根据权利要求3所述的学术链节点的智能识别方法,其特征在于,所述特征函数Fj(Y,X)包含了转移函数和状态函数,则命名实体识别模型转化为:
其中,λk为转移函数的权值,μl为状态函数的权值,tk(yi-1,yi,i)为转移函数,sl(yi,X,i)为状态函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州轻工业大学,未经郑州轻工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010534572.3/1.html,转载请声明来源钻瓜专利网。