[发明专利]一种基于深度学习的参考文献自动标注方法及系统在审

申请号：	201810744884.X	申请日：	2018-07-09
公开（公告）号：	CN109086255A	公开（公告）日：	2018-12-25
发明（设计）人：	高良才;安东;汤帜	申请（专利权）人：	北京大学
主分类号：	G06F17/21	分类号：	G06F17/21
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	黄凤茹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公布了一种基于深度学习的参考文献自动标注方法及系统，通过分析文档内容，定位到文档中的参考文献区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动分段和标注，由此得到引文的元数据信息；包括：提取文档包含的所有的引文条目；训练基于深度学习的引文标注模型；对每一条引文利用训练好的引文标注模型进行标注，即完成文档的参考文献自动标注。本发明可取得更高的准确率，更易于扩展到新的领域和风格的参考文献上。
搜索关键词：	自动标注参考文档引文标注条目标注学习元数据信息文档内容自动分段准确率风格分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于深度学习的参考文献自动标注方法，通过分析文档内容，定位到文档中的参考文献区域，提取引文条目，然后通过基于深度学习的方法对引文进行自动分段和标注，由此得到引文的元数据信息；包括如下步骤：1)通过分析文档内容，定位到文档中的参考文献区域，提取文档包含的所有的引文条目；2)使用带有标注的引文训练数据，预先训练基于深度学习的引文标注模型；具体执行如下操作：21)首先，从互联网上收集BibTeX数据并进行预处理；通过将BibTeX记录输出为不同风格的引文，并利用BibTeX记录中已知的引文字段和内容的键值对，生成引文的带有标注的训练数据；22)引文标注模型：采用序列标注网络架构，使用双向长短期记忆单元LSTM自动抽取引文词序列中的深度特征；然后加入一个段分割的层，根据LSTM的输出预测每个时刻的片段标签，确定片段与前后时刻是否属于同一个片段；根据标签，通过段分割层的输出得到段的集合；然后对得到的段集合中每个段计算段特征，将段的序列送入条件随机场CRF中；使用条件随机场CRF预测标签；3)对步骤1)中提取到的所有引文条目，使用步骤2)中训练的引文标注模型，对每一条引文进行标注，即完成文档的参考文献自动标注。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810744884.X/，转载请声明来源钻瓜专利网。

上一篇：基于高光谱技术石蜡内部组分综合等级评定
下一篇：一种长度可变的字库点阵的生成及使用方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的参考文献自动标注方法及系统在审

专利文献下载