[发明专利]一种基于FastText-CRF的引文元数据抽取方法有效
申请号: | 201910799548.X | 申请日: | 2019-08-28 |
公开(公告)号: | CN110516069B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 杨柳;胡雷;龙军 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/38 |
代理公司: | 长沙市融智专利事务所(普通合伙) 43114 | 代理人: | 欧阳迪奇 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 fasttext crf 引文 数据 抽取 方法 | ||
本发明公开了一种基于FastText‑CRF的引文元数据抽取方法,考虑了引文段对引文元数据的影响,先从引文数据中提取引文段,然后利用FastText模型做一个分类器,对引文段做一个粗分类,最后将粗分类的结果输入到CRF(条件随机场模型)得出最后的分类标签。通过将FastText模型与CRF模型相结合的技术应用于引文元数据抽取,可以改进现有的引文元数据抽取的效果,极大缩短引文元数据抽取时间。
技术领域
本发明涉及一种基于FastText-CRF的引文元数据抽取方法。
背景技术
在基金申报书中往往会列出申请人的研究成果,且一般以引文形式列出。引文数据主要包含作者、标题、出版者、年份、页码、卷等字段的元数据信息。少数申请人为了让“成果”夺人眼球、追赶乃至超越其他竞争者,会对引文进行篡改,包括对引文文献信息调换作者顺序(第二作者变第一作者)、篡改期刊名称、论文发表时间,盗用他人论文等行为。通过对引文元数据抽取是引文元数据差异性比对前提,为引文甄别提供数据基础。此外,引文元数据在学术信息检索、引文分析、语义网建设等领域也具有重要价值。
引文本身是纯文本形式的字符串,即词、数字、标点和其他字符的序列,本身不具有结构化的信息,需要通过对引文进行标注,从中抽取出元数据信息。引文元数据的自动抽取是一项具有挑战性的工作。首先引文风格多种多样,不同的语主题、出版物类型(如图书、期刊、会议)所采用的引文风格不尽相同,其次,不同引文所包含的元数据个数和排列顺序也有所不同。
目前引文元数据抽取的方法包括4类:基于规则的方法、基于模板的方法、传统机器学习的方法,基于深度学习的方法。
基于规则的方法缺点是需要事先由领域专家设计一系列的抽取规则,并要实时对这些规则进行维护,另外抽取规则的适应性较差,而不同的引文的格式往往不同,甚至当有较多的规则存在时,还需要解决规则间的不一致性和冲突,引文的特征数量越多,所需要制定的规则数量就越多,这使得基于规则的系统难以处理特征数量较多的引文数据。
基于模板的元数据抽取方法实现简单,但其元数据抽取结果严重依赖于数字文档的风格和版式。
基于机器学习的方法依赖在已知的引文上人工定义的特征来实现标注,不能从普遍存在的引文数据自动学习特征。
基于深度学习的抽取方法,预训练模型往往需要很长时间、无法满足抽取的时效性,并且神经网络构建及调参过程也较复杂。
发明内容
为了解决目前在对引文进行数据抽取时存在的适应性差、处理难度大的技术问题,本发明提供一种能够准确快速有效的对引文进行数据抽取的基于FastText-CRF的引文元数据抽取方法。
为了实现上述技术目的,本发明的技术方案是,
一种基于FastText-CRF的引文元数据抽取方法,包括以下步骤:
步骤1,采集用于训练的原始引文数据集,然后进行包括删除非法字符在内的预处理,并对预处理后的引文基于标点符号进行分段,再根据引文内容为引文添加相应标签,最后将数据集分为训练集和验证集;
步骤2,训练词向量模型,然后搭建包括输入层、隐藏层、CRF层和输出层在内的FastText-CRF抽取模型,然后输入训练集,并根据输出的标签结果的准确率来对FastText-CRF抽取模型进行优化后重新输入训练集,循环执行直到准确率达到预设值;
步骤3,对待抽取引文基于标点符号进行预处理及分段,然后输入至训练完毕的FastText-CRF抽取模型中进行抽取,最后得到作为结果的标签。
所述的一种基于FastText-CRF的引文元数据抽取方法,所述的步骤1中,所述的用于训练的原始引文数据集,是从网络上收集的各学科的BibTeX格式即键值对形式表示的引文数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910799548.X/2.html,转载请声明来源钻瓜专利网。