[发明专利]一种基于模式串匹配的学术论文快速智能筛选方法有效
申请号: | 201910005042.7 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109815196B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 赵晓;何立风;陈弘颖;魏婧雪;闫晨;杨楠 | 申请(专利权)人: | 陕西科技大学 |
主分类号: | G06F16/14 | 分类号: | G06F16/14 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710021*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 匹配 学术论文 快速 智能 筛选 方法 | ||
1.一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,具体按照以下步骤实施:
步骤1、转换用户输入的论文集合为统一的文件格式;
步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;
所述步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:
方式一:用户手动输入关键词,最多输入8个;
方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;
方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词;
所述步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图;
所述步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程;
步骤3、建立基于关键词的跳跃前移预测表;
所述步骤3中跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:
如果当前扫描到的文本字符不属于关键词中的字符,则前移的距离为关键词长度的最小值;
如果当前扫描到的文本字符属于关键词中的字符,依据状态转换图中当前字符的弧头距离开始状态的长度计算得到;
步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果;
步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
2.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。
3.根据权利要求1所述的一种基于模式串匹配的学术论文快速智能筛选方法,其特征在于,所述步骤4具体如下:
对论文集合中的每一篇论文执行如下的操作:
步骤4.1、从左向右扫描论文Ti,当扫描到除空格、逗号、分号、句号这些标点符号外的有效字符Ct时,根据状态图的引导实现与关键词中字符Ck的匹配;当有关键词Kj被匹配成功时,将所有关键词向前跳跃Kj长度lj的距离;当所有关键词匹配均不成功时,查找跳跃前移预测表中字符Ct对应的移动距离l,将关键词向前移动l个字符的距离;
步骤4.2、从新的位置开始重新进行关键词的匹配处理,直到扫描到论文的末尾;
步骤4.3、在匹配的过程中记录各个关键词匹配成功的次数tj,对每一篇论文重复步骤4.1~步骤4.3,直到用户上传的所有论文均被匹配后结束;
步骤4.4、按照公式(1)计算给定关键词在一篇论文中的匹配度di:
di=(∑vj×tj)/wi
其中,vj代表第j个关键词的权值,tj表示第j个关键词在论文文本中匹配成功的次数,wi表示论文的字符长度;
步骤4.5、根据统计的匹配度,返回筛选结果:依据步骤4.4统计的匹配度di值的大小,对论文进行排序,返回筛选结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西科技大学,未经陕西科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910005042.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:查询方法、终端和存储介质
- 下一篇:移动游戏大数据贴源层实现方法及装置