[发明专利]一种基于深度学习的参考文献自动标注方法及系统在审
申请号: | 201810744884.X | 申请日: | 2018-07-09 |
公开(公告)号: | CN109086255A | 公开(公告)日: | 2018-12-25 |
发明(设计)人: | 高良才;安东;汤帜 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/21 | 分类号: | G06F17/21 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动标注 参考 文档 引文标注 条目 标注 学习 元数据信息 文档内容 自动分段 准确率 风格 分析 | ||
本发明公布了一种基于深度学习的参考文献自动标注方法及系统,通过分析文档内容,定位到文档中的参考文献区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动分段和标注,由此得到引文的元数据信息;包括:提取文档包含的所有的引文条目;训练基于深度学习的引文标注模型;对每一条引文利用训练好的引文标注模型进行标注,即完成文档的参考文献自动标注。本发明可取得更高的准确率,更易于扩展到新的领域和风格的参考文献上。
技术领域
本发明涉及一种基于深度学习的参考文献自动标注方法。涉及机器学习、信息抽取等领域。
背景技术
学术著作中包含了大量的参考文献,它们提供了若干关于被引用文献的元数据信息,体现了对他人研究成果的尊重,体现了学术研究的延续性。参考文献的引文中包含了作者、标题、出版者、年份、页码、卷期等字段的元数据信息。引文元数据在数字图书馆、学术信息检索、知识管理、语义网等领域具有重要的价值,是进行引用关系分析、主题发现等课题研究的基础。但引文本身是纯文本形式的字符串,即词、数字、标点和其他字符的序列,本身不具有结构化的信息,需要通过对引文进行标注,从中抽取出元数据信息。
参考文献的自动标注具有很强的实用价值。例如,学术数据库每天会收录大量的新的学术著作。对于一篇新文献,它引用了很多学术数据库中已有的文献。为了在学术数据库中建立文献间的引用关系,需要对一篇文档的参考文献进行标注,发现并抽取引文的元数据,确定引文对应的参考文献,然后和数据库中的该文献建立引用关系。这一过程如果由人工的方式完成,工作量将会极其大,需要借助机器实现自动的抽取。此外,通过对参考文献的自动标注,还可以用来实现对文档内的参考文献的自动校对,帮助作者和编辑发现和修正参考文献中的错误。
引文的自动标注将引文看作词的序列,通过标注每个词的元数据字段,来实现对整条引文的标注,抽取其中的元数据。因为引文的文本具有元数据字段多、风格多、领域多、类型多等特点,引文的自动标注是一项具有挑战性的工作。首先,引文中含有和所引用文献相关的若干种字段;另外,引文在领域、风格和类型上都是多样的。不同领域的引文内容会有所差异,不同的类型包含的内容也有所不同;引文还拥有成千上万种不同的引文风格,不同的引文风格,元数据字段的排列顺序也千差万别。现有的引文元数据抽取的方法包括基于规则、基于模板和基于机器学习的方法。基于规则和基于模板的方法需要制定规则或模板,对于规则或模板无法覆盖的情况,效果就会很差,所以可靠性低;现有的基于机器学习的方法依赖在已知的引文上人工定义的特征来实现标注,不能从普遍存在的引文数据自动学习特征,效果仍然有很大的提升空间。
发明内容
本发明的目的就是提出一种基于深度学习的参考文献自动标注方法及系统。具体而言,通过分析文档内容,定位出文后参考文献的区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动的分段和标注,得到引文的元数据信息。通过将深度学习的技术应用于引文的标注,可以改进现有的引文元数据抽取的效果。
为了实现上述目的,本发明采用的技术方案如下:
一种基于深度学习的参考文献自动标注方法,通过分析文档内容,定位到文档中的参考文献区域,提取引文条目,然后通过基于深度学习的方法对引文进行自动的分段和标注,由此得到引文的元数据信息;包括如下步骤:
1)通过分析文档内容,定位到文档中的参考文献区域,提取其中包含的所有的引文条目;具体执行如下操作:
11)在文档中按照段落寻找参考文献区域的标志性关键词(如“参考文献”、“References”等),定位到参考文献区域;参考文献区域可以有多个;
12)对每个参考文献区域,从第一个段落开始对每个段落按照如下方法进行检查:
12A)检查序号,判断段落的开始位置是否含有设定格式及类似变形(如“[数字]”、“[作者,年份]”);如有,则将该段落序号之后的部分整体作为引文;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810744884.X/2.html,转载请声明来源钻瓜专利网。