[发明专利]一种基于多任务双边分支网络的引文意图分类方法在审
申请号: | 202111638197.8 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328923A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 周仁杰;胡天祥 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 双边 分支 网络 引文 意图 分类 方法 | ||
本发明公开一种基于多任务双边分支网络的引文意图分类方法,为了缓解数据集不平衡问题对模型性能造成影响,采用双边分支网络作为基础网络结构。在训练过程中先获得原始数据集,还利用过采样技术生成反转数据集以及构建辅助数据集。为了能够引入辅助数据集的信息采用了多任务学习方法。在构建模型时采用SciBert模型作为嵌入层来提取输入的引文文本的特征向量,此外还利用注意力机制来构建注意力层,用于提高模型对引文文本中重要单词的注意力,降低对其他单词的关注度。最后模型通过一个自适应参数α在训练过程中转移模型的注意力。本发明提高了引文意图分类的准确性,从而可以更准确地预测引文的意图类别。
技术领域
本发明涉及一种引文意图分类的方法,更具体地说,涉及一种面对引文意图数据集类别不平衡的分类方法。
背景技术
近些年来,许多学术领域的年论文发表一直在逐年的递增。比如计算机领域中的深度学习领域的顶会,几乎每一年的论文接收量都会超过上一年。无论是从事多年的研究人员还是刚开始研究人员都需要通过阅读论文来跟踪自己的研究领域的发展。而面对如此海量的论文,研究人员需要花大量的时间去筛选和阅读。传统的引文分析,基于纯粹的引文被引用的频率,来判断一篇文献的质量。而引文被引用的意图是不同的,有的引文作为研究背景而被引用,而有的引文则作为方法而被引用。因此了解引文被引用的意图,能够更好的帮助研究人员筛选论文以及分析科学工作。
现有的方法都是通过引文句子,引文标题,被引文标题等内容来构造不同的特征信息,然后结合不同的分类器来实现引文意图分类。由于构造特征信息的方式不同,有许多分类方法被提出,有的通过人工手动设置的规则来提取特征信息,有的利用深度学习方法来生成特征信息。这些现有引文意图分类方法默认引文数据集中的不同意图类别是均衡的。但在本发明的数据集中存在明显的数据不平问题。
而在现实场景下,数据集类别不平衡是一种常见的问题。类别不平衡问题往往会导致模型在样本数少的类别上的性能很差。本发明的引文意图类别共分为6种,其中大多数引文文本属于同一个类别,剩余的引文文本则属于剩下的5种。模型容易将其他类别的样本预测为样本数多的那个类别。故而本发明利用双边分支网络来提高模型在数据不平衡问题下的性能,还引入了多任务学习方法来构建基于多任务双边分支网络的引文意图分类模型。
发明内容
本发明的一个目的是针对现有技术的不足,提供一种基于多任务双边分支网络的引文意图分类方法,采用双边分支网络作为模型的基础,同时利用多任务学习方法来构建模型。
本发明所采用的方法如下:
步骤1:获取带有意图分类标签的引文文本数据,作为原数据集Do。
步骤2:利用过采样方法对Do的训练集进行采样生成反转数据集Dr。
步骤3:获取分类标签是科学文献的章节名的引文文本数据,构建辅助数据集Da。
步骤4:搭建基于多任务双边分支网络模型,利用原数据集的训练集、反转数据集、辅助数据集进行训练。
步骤5:利用训练好的基于多任务双边分支网络模型,进行验证、测试。
步骤6:利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。
本发明的另一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明提供的技术方案包含以下有益效果:
本发明通过采用多任务学习的方式,引入外部信息,对模型能够学习到的特征进行扩充,提高了模型的泛化能力;此外,本发明采用双边分支网络来提高模型在样本数少的类别上的分类性能,缓解了数据不平衡问题对模型性能的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111638197.8/2.html,转载请声明来源钻瓜专利网。