[发明专利]一种科技论文引言内容生成系统与方法在审
申请号: | 202211024131.4 | 申请日: | 2022-08-25 |
公开(公告)号: | CN115345150A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 张祯;张博晟;吴国华;王玉娟;袁理锋;王秋华;任一支;吕琦赟 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 论文 引言 内容 生成 系统 方法 | ||
本发明涉及一种科技论文引言内容生成系统与方法,所述引言内容指论文的引言或RelatedWork等阐述既有研究的内容,具体步骤包括:构建引言数据集,生成引文网络;训练引言生成模型;系统部署,设计和开发引言生成系统和引言生成;该方法通过构建引文网络,引入论文间的结构信息,并利用图卷积神经网络对多篇论文的摘要建模,进而生成引言内容,有效提高了引言生成的准确性。
技术领域
本发明涉及一种科技论文引言内容生成系统与方法,属于自然语言处理技术领域。
背景技术
引言是科技论文的立论基础,通过文献检索分析,对既有研究进行简要概括,以揭示研究缘起和学术脉络、指向研究问题、阐明研究逻辑等内容。目前,以技术手段辅助进行科技论文引言的生成方法主要有抽取式(Extractive)和生成式(Abstractive)两类。抽取式方法从多篇论文的摘要中选取重要句子,合并生成引言,所有句子均来自原文,句子之间存在连贯性差等问题,生成式方法使用句子与词语序列结构对多篇论文的摘要建模,可以生成不同于原文的词语,语句较为流畅,但是忽略了论文之间存在引用关系网络这一结构信息,导致模型对论文中的术语概念理解不充分,进而影响引言生成的准确性。
为了解决上述问题,本发明提供了一种科技论文引言内容生成方法与系统,该方法通过构建引文网络,引入论文间的结构信息,并利用图卷积神经网络对多篇论文的摘要建模,进而生成引言内容,有效提高了引言生成的准确性。
发明内容
本发明的目的是针对现有方法存在的不足,提供一种科技论文引言内容生成系统与方法。
为实现上述目的,本发明的技术方案是:
一种科技论文引言内容生成系统,包括引言生成模型训练系统和引言生成系统;所述引言生成模型训练系统包括引言数据集获取模块:通过论文数据库或者爬取等方法获取论文资源,构建引言数据集,引文网络生成模块:用于为引言数据集的每个训练样本生成引文网络,和引言生成模型训练模块:用于将训练样本和其对应的引文网络输入到引言生成模型中训练,得到训练好的引言生成模型;
所述引言生成应用系统包括论文内容抽取模块:用于抽取论文素材中每篇论文的标题以及摘要,论文内容处理模块:用于将论文素材处理为引言生成模型的输入数据格式和引言生成模块:用于将处理好的论文内容输入到训练好引言生成模型中,输出引言。
所述引言生成模型训练模块包括引用关系矩阵构建模块:用于构建论文素材中论文之间的引用关系邻接矩阵,预处理模块:对论文素材中每篇论文的摘要去停止词和分词,形成摘要特征词序列集合,和词向量生成模块:将预处理后的特征词序列转化为特征词向量。
一种科技论文引言内容生成系统的生成方法,包括以下步骤:
步骤一、构建引言数据集:引言数据集中每个训练样本包括一篇论文的引言和其所引用参考文献集合,记为DataSet={RWi,Ref_Seti|1≤i≤N},其中RWi表示第i个训练样本的引言,Ref_Seti表示第i个训练样本的参考文献集合,i表示引言数据集中每个训练样本的下标,N表示引言数据集大小;
步骤二、生成引文网络:为引言数据集中每个训练样本构建引文网络,记为Gi={V,E},1≤i≤N,其中Gi表示第i个训练样本的引文网络,V表示参考文献集合,E表示引用关系邻接矩阵,vj∈V表示Ref_Seti中的第j篇参考文献,em,n∈E表示第m篇参考文献是否被第n篇参考文献引用,其中em,n=1表示被引用,0则反之;
步骤三、训练引言生成模型:将训练样本和其对应的引文网络输入到模型中训练,得到训练好的引言生成模型,引言生成模型包括Bi-LSTM编码器,GCN编码器和LSTM解码器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211024131.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种人造金刚石的提纯方法
- 下一篇:植入电极的固定机构
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法