[发明专利]一种基于多任务双边分支网络的引文意图分类方法在审
申请号: | 202111638197.8 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114328923A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 周仁杰;胡天祥 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱亚冠 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 双边 分支 网络 引文 意图 分类 方法 | ||
1.一种基于多任务双边分支网络的引文意图分类方法,其特征在于包括以下步骤:
步骤1:获取带有意图分类标签的引文文本数据,作为原数据集Do;同时将整个原始数据集划分成原始数据集的训练集、验证集、测试集;
步骤2:利用过采样方法对Do的训练集进行采样生成反转数据集Dr;
步骤3:获取分类标签是科学文献的章节名的引文文本数据,构建辅助数据集Da;
步骤4:搭建基于多任务双边分支网络模型,利用原数据集的训练集、反转数据集、辅助数据集进行训练;
所述基于多任务双边分支网络模型包括输入层、嵌入层、注意力层、辅助任务模块、主任务模块、输出层;
所述输入层用于接收原数据集的训练集、反转数据集、辅助数据集中的文本数据,再对文本数据进行预处理操作;
所述嵌入层采用SciBert模型,用于将文本数据转化成向量矩阵Ha、Ho、Hr;
所述注意力层包括第一文本注意力模块、第二文本注意力模块;
所述辅助任务模块包括线性层、Softmax函数层;
所述主任务模块包括连接层、线性层、Softmax函数层;
所述输出层接收辅助任务模块和主任务模块的输出;
步骤5:利用训练好的基于多任务双边分支网络模型,进行验证、测试;
步骤6:利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。
2.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于步骤2具体是:
2-1根据公式(1)计算原数据集的训练集中每个类别的比率
其中表示第cm个类别的样本数;Nmax表示样本数最多的类别对应样本数;
2-2利用每个类别的比率计算每个类别采样概率
其中nc表示意图的类别数;
2-3迭代采样:
2-3-1初始化利用库函数随机得到一个值num,num的取值范围为[0,1);同时初始化变量sum为0;
2-3-2对原数据集的训练集中每个类别依次遍历
(1)对于遍历到的类别,利用当前类别的采样概率更新sum的值,即
(2)判断是否满足随机数num≤sum,若是则从当前类别中随机挑选一个引文文本数据加入到反转数据集中,若否则不操作;
(3)对下一个类别进行遍历,重复步骤(1)-(2),直至完成所有类别遍历;
2-3-3判断反转数据集中元素个数与原数据集的训练集是否相同,若是则结束,若否则返回至步骤2-3-1。
3.根据权利要求2所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于所述基于多任务双边分支网络模型中输入层所述的对文本数据进行预处理操作具体是:若原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记,则将每个引文文本中的该标记都删除;然后采用分词工具将整个引文文本划分成一个个的单词,同时剔除标点符号以及停用词。
4.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法,其特征在于SciBert模型将输入层输入的原始数据集、反转数据集、辅助数据集中引文文本数据对应的单词进行向量化处理,然后得到原始数据集、反转数据集、辅助数据集中引文文本对应的向量矩阵;具体是:
将每个单词xi,i∈[1,…n]转换成其对应的表示向量hi:
hi=SciBert(xi) 公式(3)
其中i是单词在引文文本中的序号,n是引文文本的单词总数;
然后将每个单词的表示向量组成引文文本的向量矩阵H:
H=[h1,…,hn,…,hL] 公式(4)
其中是引文文本的向量矩阵;d是每个单词的表示向量的长度,L是引文文本的最长单词数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111638197.8/1.html,转载请声明来源钻瓜专利网。