[发明专利]一种基于模式串匹配的学术论文快速智能筛选方法有效
申请号: | 201910005042.7 | 申请日: | 2019-01-03 |
公开(公告)号: | CN109815196B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 赵晓;何立风;陈弘颖;魏婧雪;闫晨;杨楠 | 申请(专利权)人: | 陕西科技大学 |
主分类号: | G06F16/14 | 分类号: | G06F16/14 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710021*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模式 匹配 学术论文 快速 智能 筛选 方法 | ||
本发明公开了一种基于模式串匹配的学术论文快速智能筛选方法,首先转换用户输入的论文集合为统一的文件格式;建立基于用户输入的用于筛选条件的关键词分析的状态转换图;建立基于关键词的跳跃前移预测表;然后执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。最后通过筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。本发明解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。
技术领域
本发明属于论文智能检索技术领域,具体涉及一种基于模式串匹配的学术论文快速智能筛选方法。
背景技术
阅读大量的文献是获取学科领域的研究成果、发展现状必不可少的途径。现有的网站知网、百度学术、google学术等为用户提取了查阅、下载学术论文的平台,用户下载海量论文后,需要投入大量的人力、精力对收集到的论文进行整理获取对个人、团队研究有用的论文,此过程需要反复的浏览论文,进而筛选出最终有用的论文。随着论文信息量的增加,这样的筛选过程将耗费用户更多的时间和精力。另一方面,因为论文数据量大,难免因为人工疲劳、疏忽大意等人为因素漏掉有用的论文。为解决面对大量的论文筛选带来的难题,提高工作效率,提出依据用户给定的关键词与论文集合中的每篇论文执行模式串匹配处理,计算给定关键词与每篇论文的匹配度,从而筛选出有用论文。
发明内容
本发明的目的是提供一种基于模式串匹配的学术论文快速智能筛选方法,解决了现有技术中存在的对收集到的论文进行整理需要大量人力、精力的问题。
本发明所采用的技术方案是,一种基于模式串匹配的学术论文快速智能筛选方法,具体按照以下步骤实施:
步骤1、转换用户输入的论文集合为统一的文件格式;
步骤2、建立基于用户输入的用于筛选条件的关键词分析的状态转换图;
步骤3、建立基于关键词的跳跃前移预测表;
步骤4、执行模式匹配算法,计算各论文与关键词的匹配度,根据统计的匹配度,返回筛选结果。
步骤5、通过步骤4的筛选结果查看筛选后的论文,进而查看每一篇论文与关键词的详细匹配情况。
本发明的特点还在于,
步骤1中用户输入的论文集合文件格式包括.ord、.pdf、.caj,转换后的统一的文件格式为.txt。
步骤2中用户输入的用于筛选条件的关键词有三种方式供用户选择,如下:
方式一:用户手动输入关键词,最多输入8个;
方式二:用户在系统中自动选取研究领域及选定领域的专业方向的关键词;
方式三:将方式一和方式二混合使用辅助用户确定用于论文筛选的关键词。
步骤2中状态转换图由圆圈和箭头构成,其中圆圈表示状态,圆圈中的数字表示第几个状态,箭头及箭头上的字符表示在箭尾的状态下遇到箭头上的字符时转到的下一个由箭头表示的状态,在建立状态转换图时,开始状态用状态0表示,从关键词的最右边的字符开始从右向左依次建立,一个状态下每向左扫描一个字符时便进入下一个状态,其中状态的编号从0开始每增减一个状态,状态的编号自动增加1,当多个关键词存在公共的最右字符串时,这些关键词放在一起构造状态转换图,形成一个共有的状态转换图。
步骤2具体如下:当两个或者两个以上的关键词之间存在最右公共的字符串时,根据各个关键词的构词规则,建立状态与扫描字符间的转换关系图,具有公共字符串的关键词的状态转换图是同一个状态转换图,从而简化关键词匹配操作执行的过程。
步骤3中跳跃前移预测表用于匹配不成功时,对关键词向前跳跃距离进行预测,根据关键词中字符在关键词中出现的位置计算向前跳跃的距离,出现文本字符和关键词的字符不匹配时,关键词前移距离分两种情况计算:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陕西科技大学,未经陕西科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910005042.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:查询方法、终端和存储介质
- 下一篇:移动游戏大数据贴源层实现方法及装置